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لايسمح بإعادة إصدار هذا الكتابء أو نقله في أي شكل أو وسيلة» 
سواء أكان إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين. أو أنظمة الاسترجاع؛ دون إذن خطي من المركز بذلك. 
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هذا المشروع 


مشروع تأليف سلسلة كتب في مجال (حوسبة العربية) بهدف إلى بناء تراكم معرفي 
في محال حيوي مهم؛ هو مجال (حوسبة العربية) . ويعد هذا الكتاب واحدا من سلسلة 
كتب صدرت ف المركز. 

يقع هذا المشروع ضمن سلسلة (مباحث لغوية) التي يشرف المركز على اختيار 
عنواناتهاء وتكليف المحررين والمؤلفين» ومتابعة التأليف حتى إصدار الكتب. وهي 
سلسلة يجتهد المركز أن تكون سداداً لحاجات بحثية وعلمية تحتاج إلى تنبيه الباحثين 


عليهاء أو تكثيف البحث فيها. 
ويعدٌ هذا الكتاب واحداً من كتب ثلاثة مترابطة في مشروع علمي واحد متخصص 
في (الذكاء الاصطناعي) : 


.١‏ العربية والذكاء الاصطناعى. 
؟. تطبيقات الذكاء الاصطناعى في خدمة اللغة العربية. 
“". خوارزميات الذكاء الاصطناعي ني تحليل النص العربي. 
د.عبدالله بن يحبى الفيفي 
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كلمة المركز 


يعمل المركز في مجال البحث العلمي ونشر الكتب مستهدفاً التركيز على المجالات 
البحقية لعي مزالت يحاجة [لتسايط الصو اها وتيت البعت نيهاء ولفت أنظاز 
الباحثين والجهات الأكاديمية إلى أهمية استثغارها بمختلف وجوه الاستثار» وذلك مثل 
مجال (التخطيط اللغوي) و (العربية في العالم) و(الأدلة والمعلومات) و (تعليم العربية 
لأبناتها أو لغير الناطقين بها) إلى غير ذلك من المجالاتء وإن من أهم مجالات البحث 
المستقبلية في اللغة العربية مجال (العربية والحوسبة » والذكاء الاصطناعي) حيث إن 
اللغات الحية مرهونة حياتها مستقبلا بمدى تجاوبها مع التطورات التقنية والعام 
الافتراضي» وكثافة المحتوى الإلكتروني المكتوب» وهو ما يشكل تحديا حقيقيا أمام 
اللغات غير المنتجة للمعرفة أو للتقنية. 

وقد عمل المركز على تسليط الضوء على هذا المجال التخصصى؛ مستعينا بالكفاءات 
القادرة من المهتمين بالتخصص البيني (بين اللغة واللاليون دزا جهودهم. وهادفاً 
إلى نشرهاء وتعميم مبادئهاء راغباً أن يكون هذا المسار العلمي مقررا في الجامعات في 
كلية العربية والحاسوب. ومجالا بحثيا يقصده الباحثون الأكديميونء والجهات البحثية 


0 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


وقد أصدر المركز سابقا ستة عشر كتاباً ختصا في (حوسبة العربية) وفي الإفادة من 
«المدونات اللغوية) في الأبحاث العربية» ويحتفل بإصدار سبعة كتب جديدة مختصة 
في (حوسبة العربية والذكاء الاصطناعي)» ويقدمها للقارئ العربي» وللجهات 
الأكاديمية؛ للإفادة منها واعتماد ما تراه منها مناسباً لتعليمه والبناء عليه» وهذه الكتب 
السبعة هي: (العربية والذكاء الاصطناعي» تطبيقات الذكاء الاصطناعي في خدمة اللغة 
العربية» خوارزميات الذكاء الاصطناعي في تحليل النص العربي » مقدمة في حوسبة 
اللغة العوبية» الواره اللعوية تكسو بة» اللخايقة الآلية للتصوضي العريج» ف خانك 
أساسية في المعالجة الآلية للغة العربية). 

ويشكر المركز السادة مؤلفي الكتب. ومحرريهاء لما تفضلوا به من عمل علمي 
رصين؛ وأدعو الباحثين والمؤلفين إلى التواصل مع المركز لاستكمال المسيرة» وتفتيق 
فضاءات المعرفة. 


وفق الله الجهود وسدد الرؤى. 


الأمين العام 
أ. د. محمود إسماعيل صالح 
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تطبيقات الذكاء الاصطناعى 
خدمة اللغة العربية 


مقدمة المحرر”) 

الحمد لله. علم الإنسان مالم يعلم: قلماء وبياناء وقرآناء وخلقا. والصلاة والسلام 
على النبي الأمي الذي أرسل للعالمين سراجا منيرا. وبعد» فالذكاء الاصطناعي يُتيح 
وَكُلّ بعض مهام البشر للآلات»ء وفي بؤرته: تأليل معالجة اللغات. واللغة العربية 
فلة» لما فلسفات عظمى ف رسمهاء وفي لفظهاء وفي صرفها وإعراما وبلاغتها. 
لذلك تظافرت أبحاث اللغويين والحاسوبيين -عرباً وعج)- وتسابقت للغوص عن 
مكنوناتها وحِكّمهاء ولكنهم -للأسف- قصروا عن الانتهاء بجهودهم إلى تطبيقات 
عملية تصل ليد المستخدم العربي -أفرادا أو مؤسسات-. إذ كانت أكثر الجهود متفرقة» 


والأهداف متشعثة. 


-١‏ د.يوسف سال العريان باحث في الحوسبة العربية» حصل على درجة الدكتوراه في علوم وهندسة الحاسب الآلي عن 
رسالته في «تحليل وتصنيع الكتابة العربية» من جامعة الملك فهد للبترول والمعادن؛ وعلى درجة الماجستير في هندسة 
الحاسب الآلي عن رسالته في «إنتاج معجم لعملية التعرف الآلي على الكتابة العربية» من جامعة العلوم والتكنولوجيا 
الأردنية. حرر كتاب «الحرف العربي والتقنية» وله العديد من الأبحاث وبراءات الاختراع في المجال. عمل محاضرا 
في جامعة الملك فهد للبترول والمعادن أثناء دراسته» ثم أستاذا مساعدا في جامعة جازان» ثم مدربّ تعلم وتدريس في 
المدينة المنورة. حائز على عدة جوائز للتميز في التدريس الأكاديمي والبحث العلمي. 
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لذاء فقد ارتأينا ترتيب شيء من هذا النتاج الغزير وتركيزه في بوتقة واحدة» وجعلناها 
عربية كي يفيد منها الجميع: اللغوي» وا حاسوبي» وغيرهم. وبذلنا -جميعا- موسوعنا 
في تريب اللصظلحات وأسهاء المخترعاك» وتقريبها للقازيئ العربي (مع إبقاء أصلها 
بالإنجليزية ليشهل رجوع المهتم لما في مصادرها)» وذلك بعد أن لمسنا -التقصير في 
التعريب الرصين ونشره» وغرابة وقع بعض الترجمات حتى على المختص. 

جاء الكتاب في خمسة أبواب» تناولت قراءة الكتابة العربية آلياء والاستماع لأحكام 
التلاوة القرآنية تلقائياء واستخراج الآراء والمشاعر من النصوص إلكترونيا. وقد 
وجدنا الباحثين قد أجمعوا -على اختلاف مشاربهم- على أهمية تقنية التعلم العميق 
وعلو كعبها؛ فجاء الباب الرابع ليشرح هذه التقنية. وناسب هذا كله ختم الكتاب 
بتطبيق لتوليد النصوص العربية الشعرية باستخدم تلكم التقنية. 

فبدأ الكتاب بالتعرف والتحليل» وانتهى بالإنشاء والتطبيق» كأنه يصعد بالقارئ 
من الأساس إلى ذروة السنام» نسأل الله أن ينفعنا -كاتبيه وقارئيه- به. ولعل المستقبل 
يسفر عن كتاب يبدأ حيث انتهى هذاء يتناول ما وصل إليه العلم في تقليد لغة الإنسان» 
بالخط الشبيه باليدوي» والنطق العربي الطبعي» وتحليل وإنشاءٍ وتلخيص لا نكاد نفرقه 
عن البشري. كما أرجو أن تكون الجهود المباركة -ولعل أهمها جهود مركز الملك عبد الله 
بن عبدالعزيز الدولي لخدمة اللغة العربية- سببا لاستخلاص التطبيقات العملية من 
الجهود العلمية» وجني ثمارها في الدارين» والله العل على كل شيء قدير. 


وكتبه» 
د. يوسف سال العريان 


ذو القعدة ٠55١اه‏ 
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عناوين أيبواب الكتاب 


الباب الأول: القراءة الآلية لكتابة اليد العربية 
د.يوسف سال العريان و د.عرفان أحمد ١‏ 
الباب الثاني: التعرف الآلي على الكلام العربي المنطوق وتطبيقاته في القرآن الكريم 


د. أحمد حمدي أبو عبسة “07 
الباب الثالث: تحليل الآراء العربية إلكترونياً 
د.أبجد يوسف أبوجبارة ٠١7‏ 
الباب الرابع: التعلم العميق وتطبيقاته المرتبطة باللغة العربية 
د.أحمد الحايك ١5١‏ 
الباب الخامس: شاعر بلا مشاعر: تجربة في الشعر العربي الآلي باستخدام التعلم العميق 


أغريب واجب غريبي ١717*‏ 
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الباب الأول 
القراءة الآلية لكتابة اليد العربية 


د. يوسف العريان ود. عرفان أحمد 
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حاؤاات 
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القراءة الآلية لكتابة اليد العربية 


د. يوسف العريان و د. عرفان أجمر”"© 


ملخص 

هيدف هذا الباب للأخذ بيد القارئ من مقدمات القراءة الآلية إلى أحدث تطورات 
مجالها. فبعد التطرق لأهم خصائص الكتابة العربية» يعرض الباب أهم عمليات 
التعرف الآلي على الكتابة اليدوية من معالجة مسبقة وتقطيع لحروف واستخراج ملامح 
وتصنيف ومعالحة لاحقة» مع التركيز على المقاربات المختلفة لمعضلة تقطيع النص 
العربي إلى محارفه تقطيعا صريحا أو ضمنيا أو كليا. 

يشرع المؤلفان بعد ذلك بتبيان أحدث البحوث -وخاصة ما يستعمل مصنفات 
ناذج ماركوف الخفية والتعلم العميق- ويعرضان نتائجها ويعقدان المقارنات بينها بعد 
تمهيد ذلك بشرح أهم قواعد البيانات المشتهرة في تقرير نسب نجاح التعرف الآلي على 
الكتابة العربية اليدوية. وفي ختام الباب فصل للتعريف بأبرز المجلات والمؤتمرات ذات 
العلاقة» لتساعد المهتم في الرجوع إلى أمهات البحوث في مظانها وليعرف أهم بواتق 
النشر المتاحة. 


١‏ - مقدمة 
راود حلم «القارئ الآلي» البعض حتى قبل ظهور الحاسبات الآلية نفسها؛ ولا 
أدل على ذلك من تسجيل براءات اختراع لقارئات آلية ميكانيكية (كالتي في شكل )١‏ 
وتصنيع بواكيرها في القرن التاسع عشر .]7١2١[‏ هدفت هذه الاختراعات في البداية 
لمساعدة ذوي الاحتياجات الخاصة بصرياًء ثم وجدت طريقها لتطبيقات أخرى كتوزيع 

البريد وإحصاء السكان [؟] ورقمنة الكتب والمخطوطات [7]. 


-١‏ د.عرفان أحمد أستاذ مساعد في قسم علوم الحاسب الآلي والمعلومات بجامعة الملك فهد للبترول والمعادن. حصل على 
درجة الدكتوراه في التعرف على الأن|ط وتعلم الآلة من جامعة دورتموند التقنية بألمانيا وعلى درجة الماجستير في علوم 
الحاسب الآلي من جامعة الملك فهد للبترول والمعادن. نشر العديد من البحوث في مجلات ومؤتمرات مهمة» كما نشر 
بابا في كتاب وله عدة براءات اختراع أمريكية. 
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شكل (1): (أ) جهاز الأوبتوفون الذي يحول حروف الكتابة إلى نغمات و(ب) جزء من توصيف 
«الآلة القارئة» في براءة اختراع. 
ومع ظهور الحاسبات الآلية» بدأت محاولات برمجتها للقراءة الآلية (أو التعرف 
الضوئى١‏ البصر ي على النصوص 11608116108 عع ةمق لوعتام0)؛ وذلك لأن 
تخويل صور الكتابات إلى نصوص حاسوبية 1880© يسهل معالجاتها كالبحث فيها 
وتحريرها وتخزينها ونقلها. شكل ” يعرض صورتين ونصيها ويتيح المقارنة بين 


مساحا: 


ه فى هذه لغيه اول ملل عي بعر امت 
ليك ندا يجيد اكردتت الحريع | 1 سواد كاست كبر 
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مال ' كيال مز ريش مال 
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7[ اسم 


حجم الملف: ١, ٠17‏ ميغا بايت (500 ١,177,‏ بايت) 


امتداد الملف: 813/15 موحد اللون (أبيض وأسود) 


) سوم )ع (صلاجم سا 


هم التخزينية ويبرز إمكانية البحث والتحرير في النصوص. 


يتم نسخ هذه الصفحة لتجرب ضمن بحث لاحق 
لدراسة كيف نقوم بتمييز الحروف العربية آلياء سواء 
كانت مكتوبة أو مطبوعة طباعة. تتضمن هذه التجربة 
كتابة النص من قبل عدد كبير من الناس مع ضرورة 
موس اضرم سورض صر 
صور هذاه ام الى 58 أو نظام حاسوبي 
وظيفته مقارنتها مع نفس النص المحفوظ أصلا في 
ذاكرة الحاسب ومن ثم استخراج واستنباط الصفات أو 
المميزات التي تؤدي إلى تمييز المقاطع والحروف. . يفترض 
في هذا النص الوضوح وأن يشتمل على كل حروف 
لغة الضاد وأن يظل صحيح اللغة. أرجو أن تحول 
كتابة الكلمات التالية بالرغم من غرابتها: محمد الحج» 
الكرك» صاغء ضوؤه» اشراق» تعبوي» ثتللاث مثلثات» 
الاكتظاظ. استنساخ» |الجيش» يتلالآء الحائط. صائغ» 
«((1+؟-"7)+ ةأه) -(5+لا-١٠8)#؟9-‏ سس“ 

حجم الملف: ١١‏ كيلو بايت (/78,؟١‏ بايت) 


امتداد الملف: 10000276 


ات 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل4هككك4 د ---_||سسييييىو وى ااا 


بلغ ماج أن عه لمان بوادوعوف٠‏ طفق يسعى لاحغار بلغ حاج أن اخاه ظمآن بوادي عوف. طفق 
تلان شب زمزم تنبحيه مع مطوبر وضيج الشّمس . حعك ععورض يسعى لإحضار ثلاث قرب زمزم تنجيه مع 
الشيخ نوع بصرد ذلك ف أعرمه وصب وثثكاف وكال للآت أ عظلم سطوع وهيج الشمس. حث عوض الشيخ نوح 
مط سمعيء ناص لص إلعي . ا ا 
عْسُ راجج غقامة لذا جن بغي وانقض افتهت. عظم. ضبط سهيل وأشخاص لص ال حي. غش 


راجح غثامة لذا جن بغيظ وانقض. انتهت. 


حجم الملف: 585 كيلو بايت 5108150 بايت) حجم الملف: 5١١‏ بايت 
امتداد الملف: 111 ملون امتداد الملف: 12361 


شكل (3): أمثلة بيانات حاسوبية صورية ونصية [5 ] و[5]. 
والتعرف الآلي على الكتابة من مجالات الذكاء الاصطناعيء والتي تبدف -عموما- 
لمحاكاة بعض قدرات البشرء ومنها التعرف على الأناط وتمييز الحروف. بيد إن مجال 
القراءة الآلية أصبح يتضمن أيضا عمليات مصاحبة من يجالاات كمعالحة الصور 
ولسانيات الحاسب الآلي» كتحديد مواضع الكتابة في الصور, وتحسين جودة الصور 
لتسهيل التعرف على كتابتهاء وت تصحيح نتائج التعرف الآلي على الكتابة لغويا. 
١١‏ أقسام القارتات الآلية 
تقسّم أكثر التصنيفات الحديثة المتعرفات الآلية من حيث نوع المدخلات إلى نوعين: 
٠‏ التعرف على التراخى (أو المنفصل (040106)) والذي يتعرف على الكتابة 
الورقية المكتوبة سالفا 
٠‏ والتعرف الآني (أو المتصل (2)001106) والذي يتم أثناء الكتابة على لوحات لمس 
(وأعاطة1). 
وقد يَظَن من الاسمين أن التعرف المتراخي أسهل من الآنيٍ لأنه لا يتطلب سرعة 
الإنجاز لمواكبة عملية الكتابة في الوقت الحقيقي (182111776)» لكن الحقيقة-وخاصة مع 
تسارع المعالجات- أن الكفة ربا تتجه لنجاح التعرف الآني» وذلك لتوفر بيانات لا تنوفر في 
المسساسيع سي د يساس يمد 
الكتابة د بخط موحد السياكة وبالنقاط» حك ل اعد النقاط سرعه ة الكتابة). 


-/ااط- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


4 )ب 
شكل ("): (أ) الكتابة الآنية و(ب) تمثيل البيانات الزمنية [7[]5]. 

وقد تصنف المتعرفات الآلية أيضا حسب طبيعة الكتابة والصور التى تستهدفهاء 
كالتعرف على الخط المطبوع (ولا يكون إلا على التراخي) وخط اليد (ويمكن أن يكون 
على التراخي | يمكن أن يكون آنيا). ا قد تصنف المتعرفات على التراخي حسب 
مصدر الصورة (من «الماسحات» (5تعتققنة)» أو من الصور الطبيعية (الناتجة من 
آلات التصوير أو «الكاميرات»؛ أو حتى من المقاطع المرئية أو «الفيديو)). 

ويمكن تقسيم المتعرفات التي تستهدف الكتابة الموصولة (عمنات1؟ 196ومدا0) 
كالعربية إلى متعرفات تسعى لتقطيع النصوص إلى حروفها أولاء أو للتعرف على 
الكلمات كليا (دون تقطيعها مسبقا إلى حروف». أو فيهما يسمى بالتقطيع الضمني. 

كا يمكن تقسيم المتعرفات حسب تطبيقاتهاء والتي منها: رقمنة المخطوطات [17» 
وقراءة لوحات السيارات» ومعالحة السندات المصرفية (الشيكات) زلااء وتوزيع طرود 
البريد» وتفريغ الاستبيانات آلياء والتعرف على كلمات اللافتات في الصور الطبيعية 
لى ؟]. 


أهم تحديات التعرف الآلي على الكتابة العربية اليدوية (خط اليد العربي) 

ثمة تحديات قد تواجه المشتغلين في التعرف على خط اليد -عموما-» كتغير رسم 
الحروف بين الكتاب أو حتى للكاتب نفسه في مواضع وأوقات مختلفة» وخاصة إذا 
تغيرت الحالة النفسية أو سرعة الكتابة أو وضعيتها ومكانها وسطحها وقلمها. فهذه 
تحديات تظهر في خط اليد للكتابات العربية واللاتينية والصينية؛ غير أن لكل كتابة 
تحديات خاصة بهاء لذا سنذكر في النقاط التالية بعض تحديات التعرف الآلي على الكتابة 
العربية: 


-1١/- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك4 ة د --_-_|||سسسيييبىو وى ااا 


* تغير شكل الحروف العربية المنفصلة عن تلك التي تأتي متصلة بط قبلها أو 
با بعدها أو مما معا (قارن -مثلا- أشكال خرف الغره «(ع) ولعا) واع) 
والع»). وسننصطلح على تسمية أشكال الحروف المختلفة حسب موضعها 
ب»المحارف) (5عءمقطك- اع 2 قطان ) . 

. استعمال التَقْط لتمييز بعض الحروف المتشابهة في أصلهاء ومعرفة مواضع التقّط 
من الحروف وأعدادها. ويزيد الأمر تعقيدا في الكتابة اليدوية» حيث قد يتساهل 
برسمها قبيل أو بعيد احرف وبتنوع زائد في أشكاطا بناء على الخط الذي يختاره 
الكاتب (لاحظ النقط في شكل 5). 

٠‏ التشكيل وهو اختياريء ما يجعل للكلمة الواحدة أشكالا كثيرة صحيحة. مما 
قد يعقد عمل المتعرفات خاصة مع تشابه بعض النقط مع بعض التشكيل حج| 


وموضعا ورسم). 
٠‏ إمكان التراكب الرأمى لكثير من الحروف العربية المتجاورة عوضا عن التوالي 
الأفقي [9]. 


د 
30 
14 


ا( (ب) (ج) 


شكل (5): كلمة «ثم» (أ) بدون تشكيل ولا تراكب و(ب) بتشكيلين و(ج) بالتراكب الرأسي 
والنقط المتصل. 

ل إنفصال رسم الكللات عند ورود حروف لا تتصل ب بعدها (أي حروف 
الألف والدال والذال والراء والزاي والواو ومهموزاتها وممدوداتها) أثناء 
الكلمة» فلا الكلمات تأت دائ| متصلة ولا الحروف تكون كلها منفصلة. ومن 
ذلك أيضا الانفصال عند ورود الهمزة المتطرفة على السطر بعد حرف ساكن كما 
في «دفّء»» و«شيء). إذا تمنع قواعد الإملاء اتصال الحرف قبل الأخير بها وإن 
كان في أصله يتصل ب| بعده. 


-1١4- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


٠‏ كثرة أشكال الكلمات العربية (إذا ما عرفت الكلمة بأنها ما يفصل بالمسافات 
وعلامات الترقيم) بسبب اللواصق السابقة (مثل «باء الجرا» و(لام التعريف») 
التي تتصل بأول الكلمة أو مثل «واو العطف» و«ألف الاستفهام» التي قد ترد 
في أوائل الكلمات لكن دون اتصال) واللواصق اللاحقة (مثل «تاء التأنيث» 
و«واو الجاعة») والدواخل (ى) في جموع التكسير). فمثلاء كلمة «باب» في 
اللغة الإنجليزية هى (:0001). وهى نفسها تظهر في عبارة (”0001 عط لمة“) 
بينها تظهر ختلفة بسبب السوابق الملتصقة بها في عبارة («والباب») .]١١[‏ 

ولكن في المقابل» فاللغة العربية تتمتع بخاصية قد تسهل قراءتها (والتعرف عليها 

آليا)» وهى أن لوصل الحروف وفصلها قواعد لا يجوز الحيد عنها لا طباعة ولا خطاء 
وه سدادت الكناية االانبية العاض و سبولات سيك لا يكنا التيوين سيضاة 
الكاتب من حروفها وما لن يصله. وهو مما قد يزيد التعرف على تلك الكتابات غموضا 
وصعوبة عن العربية» وهو ما توضحه أمثلة شكل 0. 


الكلمة المطبوعة الصفحة عع ]1/1 
الكلمة المخطوطة | | رمحت و4 11127 
4 (ب) 


شكل (5): مثالان يوضحان (أ) توحد طرق اتصال الحروف في الكلمة العربية و(ب) واختلافها في 
الحروف اللاتينية 5[]١1[‏ ]. 
ولعل هذا ما حدا ببعض الباحثين الغربيين لآن يقول: إن العربية أسهل وأوضح 
اللغات في العالم» ومهم| اقترحت تسهيلها وتوضيحها لم يمكن ذلك. ولو استلمت أي 
رسالة -مهم| كانت مسطورة بخط سبىء- فلن تواجه صعوبة في قراءتها [4؟ ؟]. 
ونختم مقدمة الباب بذكر ترتيب فصوله الباقية» حيث يتناول الفصل الثاني عمليات 
التعرف الآلي على الكتابة -عموما-. أما الفصل الثالث». فيفصّل الطرق المختلفة لهيكلة 
عمليتي تقطيع النصوص مع التعرف عليهاء فيها تخصص الفصل الرابع للتعريف 


ات 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك كك د -_||سسسيييبىو وى ااا 


بأشهر تجميعات الكتابة اليدوية العربية التى تستعمل في اختبار المتعرفات الآلية وتقرير 
نتائجها والمقارنة عبرها بين نتائج أهم أبحاث المجال. بعدهما نتمم فائدة الباب بفصل 
يسرد أهم أوعية النشر المعتمدة في المجال» ثم نختم الباب بخلاصته فمراجعه. 


؟- عمليات التعرف الآلى على الكتابة 

تبدأ عمليات التعرف الآلي (والتي تشمل عملية «التعرف» التي بمعنى «التصنيف») 
وما يسبقها ويلحقها من عمليات مصاحبة) بعد التقاط الصور وتحديد مناطق 
الكتابة فيها بالمعالحة المسبقة للصور (6551285ع856010) وذلك لتحسين جودة 
ووضوح النصوص فيهاء يليها -ني كثير من الأنظمة- مرحلة تقطيع صور النصوص 
(2]2610عدمعء 5) إلى صور محارفها أوأي وحدات أكبر أو أصغر تناسب التعرّف. تأتي 
بعد ذلك مرحلة استخلااص الملامح (00 عه ءا عتتذوء1) الى عدا لاحقا في 
التصنيف (01255152]100)) بعد تدريب المصنف على ملامح أمثلة موسّمة. وأخيراء 
قد تورد أنظمة التعرف الآلي مرحلة للمعالجة اللاحقة (205]01065128) بهبدف تحسين 
نتائج التعرف بالاستعانة باحتالاات صحتها لغويا. وكا يظهر» فبعض هذه المخطوات 
اختيارية قد توجد في بعض الأنظمة دون الأخرى. وفيا يلي شرح للعمليات المذكورة: 

١‏ عمليات المعالجحة المسبقة 

بعد تحويل المحتوى النصي إلى صورته الإلكترونية (باستخدام الماسحات الضوئية 
والكاميرات في حالة التحويل المتراخي أو ألواح الكتابة وشاشات اللمس في حالة 
التحويل الآني)؛ قد تجرى بعض هذه العمليات: 

.)16]100211226100( تحديدالمناطق النصية في الصور‎ ٠ 

٠‏ إزالة بعض التشويشات الظاهرة على الورق أو التشوهات الناتجة عن تحويل 
المحتوى النصى إلى إلكتروني (16220721 210156) .]661١717[‏ وللتشويش 
أنواع من أشهرها في مجالنا «تشويش الملح والفلفل»» وهو اسم لطيف لانقلاب 
بعض العناصر الصورية (61<ذ0) إلى اللون الأبيض أو الأسود. 

٠‏ تمثيل الصورة باللونين الأبيض والأسود بدلا من تدرجات الرمادي والألوان» 
وهو ما يعرف باسم الترميز الثنائي» حيث يتم اعتماد قيمة من اثنتين فقط لكل 


اا ب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ6ا ب ييا 


عنصر صوري (عادة ما نرمز لهم بالصفر والواحد) ليمثل أحدهما ما يظهر داكنا 
كالحبر ويمثل الآخر ما يظهر فاتحا كخلفية الصفحة. 
وثمة العديد من تقنيات تحويل الصور إلى ثنائية» يحدد في بعضها لون العنصر (أبيض 
أم أسود) من قيمته هو فقط حسب حد فاصل (ثابت أو متأقلم) ويحدّد بعضّها بموجب 
قيمة العنصر الصوري المراد تثنيته وقيم ما يجاوره من عناصر صورية أيضا. 

٠‏ تصحيح انحراف الكتابة (سواء أحدث الانحراف عند الكتابة أو عند تحويل 
الصفحة إلى صورة إلكترونية) يوضحه شكل 5. وتبدأ عملية تصحيح الانحراف 
عادة بتقدير درجة الانحرافء قبل أن يُدوّر النص في الاتجاه المعاكس لانحرافه 
وبزاوية مساوية لزاوية الانحراف. ولتقدير زاوية الانحراف. كثيرا ما تستخدم 
تقنيات مبنية على حساب الإسقاطات (1005اء2:0[6) (أي مجموع العناصر 
الصورية الغامقة في كل من أعمدة أو أسطر الصورة)» أو «تحليل المكونات 
الرئيسية») (2213/515ى )0م00 31مزعماءط) أو هيكلة النخصوص ()<:16' 
00 وأو تحليل الكونتورات المحيطة بالحروف والنصوص 
(ككناماصه©) أو تحويل هف (1780510170200' 110181) لتحديد القطع 
المستقيمة. شكل ” وشكل ‏ تعرض أمثلة صورية لإيضاح بعض هذه التقنيات 
المساندة لتصحيح انحراف الكتابة واستخراج الملامح ومعالجة الصورة. 


حئمعس محاثة وأاحد عشرىن 
جنلعس ماثة وضعسة عشي 
حمتعس حاثة وتط مهمه تهاد ب نا 
حجتعهعس ه اشواوو_احدهو سنوينف 
خحس مائثة و سبكين 


5 00 


شكل (5): تحويل هف (أ) قبل و(ب) بعد تطبيقه على نص لاتيني [117] وعربي [18]. 


لالا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الاك --__|سسيييبوىو,ى ااا 


هيكلة النصوص 0 


تليل الكونتور | مبزروكب لدم منووث التابت 


زر( (ب) 

شكل (72): كتابة بخط اليد (أ) قبل و(ب) بعد هيكلة النصوص [4 ]١‏ وتحليل الكونتور .]١62١5[‏ 

٠‏ ثمة عملية معالجة مسبقة أخرى تتعلق بميل أجزاء الحروف الصاعدة والنازلة 

عن الاتجاه الرأمبي» وذلك أن بعض الحروف قد تظهر في بعض المواضع مائلة» 

إما لإبرازها ىا يحدث عند استعمال خاصية الخط المائل (1]8116) أو بسبب 

وضعية اليد عند الكتابة. وعادة ما يراد في هذه الحالة تعديل زوايا الأجزاء 

الرأسية إلى زاوية موحدة (غالبا ما تكون الزاوية العامودية) للتخفيف من 

الاختلافات بين أشكال الحروف في مواضعها المتعددة. تسمى هذه العملية 
بتعديل الميل (100اءع0015 512214) . 


ك4 ب) 
شكل (8): كلمة «ليان» (أ) قبل تعديل الميل و(ب) بعد تعديل الميل ١9[‏ ]. 

٠‏ وأخيرًا يمكن السعي لتقليل التباين في أحجام الخطوط عبر ما يسمى بضبط 
حجم الحروف وتطبيعه (7510110221123100 5126)» مثل سعى بعض الطرق 
]٠[‏ لتوحيد ارتفاعات الأجزاء الصاعدة من الحروف وضبط أحجام بقية 
الحروف بالتناسب مع ذلك. هذاء ويجدر التأكيدٌ على أن وجود -فضلا عن 
ترتيب- خطوات ما قبل المعالجة ليس موحداء بل متباين من نظام لآخر. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ6ا ييا 


" و” التقطي 

تقطيع م (5686218100) عملية جهبدف للحصول على صور 
«مقاطع» أو أجزاء أساسية من النصوص (كالحرف بالنسبة للكلمة مثلا) .]1١[‏ قد 
يجري «التقطيع» على عدة مستويات» كتقطيع صور النصوص إلى أسطرء وتقطيع الأسطر 
إلى كلمات أو دون-الكلمات (511570505) («دون-الكلمات» هو ما يكتب متصلا 
في العربية لعدم انتهاء الكلمة وعدم ورود حرف لا يتصل با بعده ضمنهاء» وتسمى 
أيضا 770105 عتطوعم 2ه وعععزط أو وأطعطه ممه لعاءعصطده© 5 أحد معنييها). 
بل إن عملية تحديد مناطق النصوص في الصور (1.00211286100 166) -المذكورة آنفا 
ضمن عمليات المعلاجة المسبقة- قد ينظر إليها على أنها من مستويات تقطيع صور 
الصفحات لقراءتها آليا. بيد إن أشهر مستويات التقطيع وأهمها على الإطلاق والمراد 
بمصطلح «التقطيع) إذا أطلق: هو تقطيع صور النصوص إلى محارفها (0102318]67) 
0 حيث إنه -إذا نجح- قد يسهل عمليات التعرف الآلي اللاحقة. 
يوضح شكل 4 بالألوان نتائج التقطيع: إلى أسطر وكلمات ودون-الكلمات والمحارف. 


بل ماج إبدخ اماج إباغ|ماج | بإلناطاد 


«اساسي لور عسوو اجلوم لاصو اع يعر لو ودام لون بأو د ا 
زات ميا مالز 2 عرف | مالزاك) حر | مالقا حابن 


)ع( (ب) (ج) 8 

شكل (4): تقطبع صور النصوص إلى (أ) أسطر و(ب) كلمات و(ج) دون-الكلمات و(د) محارف [111]75]. 

فصورة النص إذا كانت تحوي عدة أسطر فقد يراد تقسيمها كل سطر على حدة. وهذه 
الخطوة قد تزداد صعوبة للفقرات المائلة أو التى في جوانبها هوامش كا في الكثير من 
المخطوات الأثرية771]. لذلك» قد يتوجب استعمال أساليب أكثر ذكاء في هذه الحالات 
كى نتمكن من تقطيع الأسطر كلها دون دمج مكونات عدة أسطر سويا (-006آ 
01 ودون تقطيع سطر ما إلى عدة أسطر (0]8608عممعء0176-5) 
ودون توزع مكونات السطر إلى أسطر مجاورة (0]8]00عمع11155-56). وهذه هى 
الأنواع الثلاثة لأخطاء التقطيع عموما: عدم تقطيع ما حقه التقطيع» والإفراط في 


تقطيع ما ليس حقه التقطيع» والخطأ في موضع التقطيع). 


50 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الاك --__|سسيييبوىو,ى ااا 


و ع 
غالبا ما تُققطع الأسطر إلى كلمات بناء على المسافات البيضاء بينهاء وإن كانت الكلمات 
العربية قد توجد في بعضها فراغات بيضاء أصغر بين أجزائها المتصلة؛ بما قد يصعب 
تقطيعها. ثمة متعرفات تحاول قراءة الكلمات كليا (801150) بموجب بعض ملامحها 
للكلمات رغم خطأ ترتيب بعض حروفهاء كما في المثال الذي في شكل .٠١‏ 
ع1 .ععنصدل 1135 1 أطلدثتا لتساحصلوعنا “تااعدانتج لمناء 1 أطلذ) ععزع لاطا اامنصل 1 
علع طقتتقك )3 تاعمدععدءى ج 6 عنضلعء30 .لنقتته تتمناتصط عط 4ه ومعتككم لمعصتمدمخطامر 
نط0 'للآه غطا ,عه 0همخثنا ذق صا كغتدع])! علا عل061 أطذكا حا تأع داحم )' مترعكل )1 ,/ؤك تع ننانا 
55 1[غ20] 3 عطا مقء أعدز ع1 .عداعم أناع؟ عطا صا عحا وعث))! أدكا لصة أأوي5 عط غخطها 15 عصطن) 
01 0605 ناته متتصطختاط غلا عدعفباءط قز كطة1 .تماءعمدام 3 اتننامطنةا )1 لعه؟ 1لازد ده ناملا لحة 


5 1 لئئة تاعدلا طتاط علتتندعف .عطه لا 2 25 7500 عطلا أناط ,1ع1)ذا1 نزط وعاع)1 تزعنكك لعج 
إخأصةىمدمم! 5د مستاعماة أمطاسدات 


شكل :)3١(‏ نص إنجليزي مقروء رغم خلط ترتيب حروف الكلمات الداخلية. 

تتجلى معضلة كمعضلة «البيضة والدجاجة» بين عمليتي تقطيع النص العربي إلى 
محارفه والتعرف عليه» إذ يصعب تقطيع المحارف دون تعرّف عليهاء بينما يصعب 
التعرف على النصوص دون تقطيعها لمحارفها! لذاء لم تنجح أكثر أنظمة القراءة الآلية 
المعتمدة على تقطيع الحروف. وظهرت أنظمة تداخل التقطيع مع التعرف وتناومه| 
لتحاكي قراءة الإنسان» ى! ظهرت أنظمة تدعو للتعرف على دون- الكلمات العربية. 

يطلق مصطلح «الجزء المتصل» في سياق التعرف الآلي على الكتابة العربية بمعنيين: 
ما يشمل النقاط والتشكيل ضمن محارفه (وهو يُرادف «دون-الكلمات»)»: وأيضا ما 
هو مجرد عن النقاط والحمزات والمدة والتشكيل» مع جعل النقاط وال همزات والمدة 
والتشكيل أجزاء متصلة مستقلة. 

تتنوع أضرب التقطيع قبل التعرف الآلي في اللغة العربية إلى أنواع» أهمها: تقطيع 
النص إلى محارف» وتقطيع النص إلى المكونات المتصلة» وتقطيع النص إلى كلمات 
للتعرف عليها كليا. ويمكن لكل من هذه الأضرب التعرف على المقاطع دون النقاط 
أولا ثم تحديد النتائج بالنقاط» أو التعرف عليها بالنقاط منذ البداية. 
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)ُ:6ا ب ييا 


'0؟ استخراج الملامح 

تلجأ كثير من الأنظمة إلى التعبير المختصر والمركز عن الصور المراد التعرف عليها 
بأهم ملامحها (16]105) وذلك تصغيرا لحجم البيانات وتسريعا لوقت المعاللجة من 
جانبء وتركيزا على ما بهم القارئ من المحارف وإهمالا لما لا هم القراءة كفروقات 
الخطوط الفردية» من الجانب الآخر. ومع أن تصميم واختيار الملامح المناسبة فن سبيل 


الخصائص العامة للملامح المناسبة» أهمها: 

٠‏ أن تتجاهل الفروق في كتابة احرف الواحد (1/2118611167 01355)-12]18) قدر 
الإمكان, إذ لا بد من اختلاف بين الكتاب في رسمهم للحرف؛ بل إن الكاتب 
نفسه قد يختلف رسمه للحرف من مرة لأخرى. فالملمح المناسب يقل تأثره بهذه 
الفروقات الفردية. 

٠‏ أن تُظهر الفروق بين الحروف المتعددة (/17021251117 01355)-102161) فيعكس 
اختلافات أشكال «السين» و«الشين» و«الحاء») -مثلا-. 

٠‏ ألا تتآثر الملامح -قدر الإمكان- بحجم الكتابة ولا بقليل من الميل والالتفاف 
فيها (105:311304 150186102 300 56216) ولا بيسير التشويش. 

اقتبست كثير من الملامح المستعملة للعربية من أعمال وأبحاث للغات أخرى. ومن 

أشهر هذه الملامح: كثافة العناصر الصورية11/1-١"17]»‏ وأعداد مرات الانتقال من بياض 
لسواد والعك س[9؟١]‏ وملامح التدرج (وعتتطخوعء؟ أمع نلومع) [١٠٠186ء‏ ومقاييس 
التقعرات [/6571:/-9؟] وترميزات اتجاهات الس (005]عع1011 0006 متقط) 
[177”] وتوصيفات فورير (10650115]015 71)101011161] ومرشحات «جابر) 
(511615 0:1 6) [7"5] والملامح المعتمدة على النسب المئوية لعناصر الصورة [8] 
ومؤخرا قيم العناصر الصورية مباشرة للتعلم العميق 6[1؟717-1]. كا أن للملامح 
مشتقات قد تستعمل أحيانا مع الملامح الرئيسية لزيادة دقة التعرف [9 547/27 807]. 
كما قد عرّفت بعض الملامح للتراكيب العربية أصالة تحلل نقاط النصوص وصواعد 
ونوازل الحروف 90501 ؟7]. 
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5 و ” التصنيف 
عملية التصنيف (ويطلق عليها مجازا «التعرف)) تبدف لمعرفة رمز النص من ملامحه 
بعد تعلمه من أمثلة. تمر المصنفات بمرحلتين على الأقل: مرحلة التدريب والنمذجة 
(عصتااءع7100 مه عصنتصته1). ثم مرحلة التعرف والتصنيف الفعلل(102)نمعمع16 
0 :3201). كما قد تمر بعض المصنفات بمرحلة تحقق (101108)000) 
لتحسين تدريبها ونمذجتهاء وبمرحلة اختبار (1650128) لتقرير نسب نجاحها في 
المحوك العلدية والمسارقات: 
* التدريب 
يعصَّى المصنف في مرحلة التدريب أمثلة مُوسّمة (1.866160) برموز المحارف أو 
الكليات التي في تلك الأمثلة» وذلك حتى «يتعلم» النظام -بإحدى خوارزميات 
التعلم- أن يسم أمثلة لم تعرض عليه حسب ملاحها. ينتج عن مرحلة التدريب «نماذج» 
يستعملها المصنف لاحقا في مرحلة التعرف. 
* التعرف 
وهي المقصود النهائي للقارئات الآلية» والوحيدة التي تهم المستخدم النهائي. يعطى 
المصنف في مرحلة التعرف الملامح المراد التعرف على نصوصهاء وهذه هي المرحلة 
الوحيدة التي لا تستعمل فيها أوسام مسبقة للنصوص. 
« الاختبار 
تأتي مرحلة الاختبار -بعد أن يجهز المتعرف- لقياس مدى نجاحه؛ فيعطى صور 
المحارف دون أوسمتهاء و تحتفظ بالأوسمة للمقارنة بها وتقرير نسب النجاح (التعرف 
الصحيح) والمخطأً. تفصل نسب الخطأ أحيانا إلى أخطاء إدراج (15م لل ممتارعدم1) 
وأخطاء إسقاط (81015 موناهاء12) وأخطاء تبديل (1811015 51100 511). نجرى 
مرحلة الاختبار عادة على قواعد بيانات مشهورة لتتيّسّر المقارنة بين البحوث. 
قد يعيد البعض استخدام جزء من صور التدريب في الاختبار» بينما يحبذ آخرون 
الفصل التام بين أمثلة التدريب وأمثلة الاختبار للتقليل من احتتالية «الحفظ الجامد) 
دون تعلم (07618100108). وقد ترجح هذه الطريقة أو تلك حسب حجم البيانات 
المتوفرة» وحسب الهدف من التعرف (هل هو محدود بخطوط كتاب معيّنين أو عام). 


/اا بت 
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وبينا لا بد أن تشمل صور التدريب الموسومة جميع أنواع المحارف وأشكاطاء لا يشترط 
ذلك لصور الاختبار (وإن كان قد يفضل). ويختلف الباحثون في نسب ما يخصصون من 
البيانات للتدريب والاختبار» وينصح أن تكون تلك النسب قريبة من /7١‏ للتدريب 
و٠5/‏ للاختبار [7]. 


؟ التحقق 

نستطيع توضيح مفهوم التحقق بموجب مرحلة الاختبار: فالتحقق ما هو إلا 
«اختبار تجريبي» بهبدف لتلافي مواضع الضعف وتحسين أداء المصنف بناء على نتائج 
مؤقتة لا هيدف لنشرها. يساعد التحقق الصحيح في تجنب بعض المحاذير مثل «الحفظ 
الجامد» (حيث يفرط المصنف في «قولبة» الفروقات والتشابهات التي مثلتها له ملامح 
أمثلة التدريب) فيتكشف ذلك عندما تعطى له أمثلة التحقق, ما يسمح بتدارك الأمر 
وإعادة النمذجة. وخلافا لمرحلة الاختبار» فإن مرحلة التحقق يمكن أن تكرر مرارا. 


ه , ” المعالحة اللاحقة 

قد يستعان في الخطوات الأخيرة للتعرف الآلي بمعاجم (05معنتتاع.]) وقواعد 
لغوية (1*1165 ع5 ذناعهز.آ) لما تقبله اللغة أو ترفضه. أو بداذج إحصائية (51]3]15]1221 
5 للشائع لغويا ك»الورودات الأقر ب) (5دنة:81-0). لترجيح أو استبعاد 
نتائج التعرف. لا سيم| عندما تكون الكلمات المراد التعرف عليها تحصورة في مجال محدد 
كالطب أو الهندسة أو أسماء مدن (عقءءم5- ستهدده2) . 


ألمحنا -سابقا- إلى حدوث «الذور» (51505تناء16) بين التقطيع والتعرف» وقد 
نشأت عن هذه المعضلة أنواع لمعماريات القراءة الآلية» منها: 


*.١‏ التعرف القائم على التقطيع 

التعرف القائم على التقطيع هو الأسلوب التقليدي حيث تُقطع صور النصوص 
إلى صور للوحدات التي يراد التعرف عليها قبل عملية التصنيف [711]. ويعرّف هذا 
الأسلو ب أيضا بأسلو ب التقطيع الخار جي (600ة)معمعء 5 لممسعاء8).» أو التقطيع 
الصريح (0]2610عطمعء5 اأعنام<18). وشكل ١‏ يوضح معاريته العامة. 
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وأكثر ما قد تنجع فيه هذه الطريقة للمطبوع من النصوصء لا سيم إذا كان بخطوط 
صممت خصيصا لذلكء كالخطوط التي تعطي جميع المحارف نفس العرض أو التي 
تترك فراغا صغيرا بين المحارف [5 7 ]. 


رموز الكلمات التعرف كلمات أو اجزاء كلمات 
شكل :)1١(‏ مخطط عمليات التعرف القائم على التقطيع. 


"” التعرف الكلى (دون التقطيع إلى تحارف) 

اقترح باحثون [7”] التعرف على الكلمات أو أجزاء الكلمات العربية دون تقطيعها 
إلى محارف. كما في المعمارية المبينة في شكل .١١‏ 

شكل :)١17(‏ مخطط عمليات التعرف الكلى. 

وما يساند هذا الاتجاه: تغيّب الحركات عن أكثر كتاباتنا اليومية (حيث يتدرب 
القارئ العربي على استناج التشكيل والكلمات من السياق) ولمن لا يعرف العربية» 
(1/0715) لتوفير تجربة شبيهة بقراءة العربية» وهو ما أوردناه للفائدة في شكل .١7‏ 
يؤدي تغيّبٍ الحركات في كتاباتنا اليومية إلى إعادة تدوير» رسم الكلماتء. فمثلا رسم 
«كتب» يستعمل لكلمات عديدة مثل «كَنَبَ) واكتبَ) وَاكثّب) واكتباء والتى لو 
كانت بالتشكيل أو بأحرف لاتينية لاحتاجت لأربعة أصناف (.”18نءل“ .”0طهنه!ا 
ط مك“ . * تاط نت نكل"). 

علاوة على ذلك. يتجه الكثير من الباحثين لحذف النقط والهمزات والمدة من صور 


النصوص ليشمل الرسم الواحد أكثر من كلمة» فتدخل تحت صنف «كتب» عندئذ 
كلياث مكل (كثب» كنب» كبت؛ كتنب ): 


نععصعتدعة طدتاوصع وصأسو امع عط ممعم بعاقه؟ عط امع 10 أذناك 
“عصتاصة طذاومه وصسااع طخ عم بكاوة ط |6 + زور" 


شكل (1): مثال إنجليزي حذفت منه حروف العلة [8*]. 
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"و" التعرف الذي يتخلله تقطيع ضمني 

التقطيع القائم على التعرف. أو التقطيع الداخلي (2600)معدمعء 5 لمسعام1) أو 
الضمني 2600 عممعء5 أأعنامس1آ). يستند إلى خوارزميات تقترح أثناء التعرف 
مواضع أولية لابتداء وانتهاء المحارف» ثم تكرر محاولات التعرف إلى الحصول على 
نتائج جيدة إحصائيا أو لغويا. شكل ١4‏ يوضح معرارية التقطيع القائم على التعرف. 
ويمكن التجوز واعتبار أن التعرف الضمني يجعل التقطيع والتعرف يحدثان معا في 


نفس الوقت. كأشبه ما يكون بقراءة الإنسان. 


شكل :)١4(‏ مخطط عمليات التعرف الذي يتخلله تقطبع ضمني. 
وقد أخرنا الكلام عن هذا النوع لأهميته حتى نتمكن من الاستفاضة بطريقتي 
«نماذج ماركوف النفية» وتقنيات «التعلم العميق)» العاملتين بالتقطيع الضمنى. 


١‏ و",” التعرف بنماذج ماركوف الخفية 

ناذج ماركوف الخفية (2100615 21311607 1110065 أو 11101231 ختصارا) تعمل 
عادة على صور الأسطر الكاملة» رغم وجود القليل من الأعمال التي استعملت نماذج 
ماركوف الخفية في التعرف على أعداد ومحارف منفصلة أو مقطعة ٠[‏ 965 7] أيضا. 

يرجح كفة استعمال /111/0 على أساليب أخرى (كاآلاات متجهات الدعم (51100011 
5ط «ماء11.6١)‏ والشبكات العصبية الاصطناعية (21تتناء]1 1111ل 
595 والغابات العشوائية (1015]5 15320010)) هو قدرتها على تقطيع صور 
النصوص ضمنيا أثناء التعرف على صور الأسطر وأحيانا الفقرات. 

نتحدث فيا يلي عن أشهر طرق استخراج الملامح المستعملة مع ناذج ماركوف 
الخفية» ثم نتطرق لوحدات النمذجة المشتهرة فيها ولشكل السلاسل الأكثر استعمالا 
(وهو ما يسمى ب«طوبولوجيا» (1000108) السلسلة) ثم نذكر أشهر خوارزمياتها 
للنمذجة الصورية (للتدريب) واللغوية (للمعالجة اللاحقة). 
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الملامح الأشهر استعمالا مع متعرفات ناذج ماركوف الخفية 

عادة ما تلجأ أنظمة التعرف القائمة على ن|ذج ماركوف الخفية -بعد عمليات المعالحة 
المسبقة- إلى حساب الملامح عبر ما يعرف «بالنافذة المنزلقة» (/0010م111 عصنك511) 
[3 "47 ]؛ حيث يحدد جزء له نفس ارتفاع صورة السطر المراد التعرف على محتواه 
النصي بعرض مقارب لذلك الارتفاع» فتحسب الملامح ذلك الجزء من الصورة والذي 
يعرف باسم «النافذة». تُّزلق النافذة (تزاح) من أول السطر (يمينه) حتى آخره (يساره) 
وتكرر عملية حساب الملامح مع كل موضع من مواضع النافذة. 

ثمة أسلوبان مشهوران لإزاحة النوافذ المنزلقة» أحدهما: إزاحتها بمقدار عرض النافذة 
بحيث لا يحصل تداخل بين مواضع النوافذ1711]» والآخر: إزاحتها بعرض أقل من ذلك 
فيحصل تداخل جزئي بين النوافذ [5 ٠.575‏ ]كما هو مبين في شكل .]١18[ ١5‏ 


منطقة تداخحل 


شكل (35): النافذة المنزلقة ويرى فيها تداخل بين النافذة الحالية (المستطيل الأخير) وبعض السابقة 
(المستطيلات المنقطة) [1]. 

عاذانا كر العراقة الترلقة حاره صرف لامسودوه الاهض القمازب الريك 
لجعل عرض النافذة يتغير اعتمادا على خصائص الصورة - كأبعاد القيعان التي بينها قمم 
في إسقاطات عناصرها الصورية الرأسية (00ناءء[2]0 2[1ع1/6101)- وقد وجد هؤلاء 
الباحثون تحسنا في النتائج جراء ذلك .]١51‏ ى) أن ثمة تجارب استحدثت نوافذ منزلقة 
مائلة (يمينا ويسارا) استعملت مع ناذج ماركوف الخفية [79645]. وأخيراء فعلينا أن 
ننوه إلى عدة أبحاث سعت لاستعمال نماذج ماركوف الخفية مجردة عن أسلوب النوافذ 
المنزلقة بالكلية [/5»51 ؟ ]. 
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وحدات التعرف الأشهر في نماذج ماركوف الخفية 

أكثر ناذج ماركوف الخفية تستهدف المحارف [/170748750»54165] لا الحروف 
[7] وهذا -كىما أسلفنا- لأن الحرف العربي له أكثر من شكل بحسب اتصاله با 
قبله وما بعده ما يصعب نمذجتها كلها بسلسلة موحدة؛ فأكثر المحارف استعمالا 
أشكال الحرف حسب الموضع («الشكل المنفصل»» و«الشكل الابتدائي»» و«الشكل 
المتوسط). و«الشكل النهائي»)» ولكن الأمر لم يخْل من مساع لتجريب محارف أخرى 
كنمذجة الأجزاء الرئيسة والمكملة من الحروف إلى محارف [51]» ونمذجة الأجزاء 
التى تشترك فيها عدة حارف ٠[‏ 425 5 ]» ونمذجة حرفين أو عدة حروف معا (كما في 
سعينا للمدجة الأراكيات الأشهن لتحرفين فاككر عا 813]):«زقد.وجدت أيقنا مساء 
لنمذجة المحارف وأجزاء الكلمات مجردة من النقط والحمزات والتشكيل» ونمذجة تلك 
النقاط وال همزات والتشكيل على حدة [57]؛ وأخرى لنمذجة الفراغات البيضاء (بين 
الكلمات) أو البينية (التي تقع بين أجزاء الكلمة المنفصلة) [0679؟] بسلاسل مستقلة. 

أشكال السلاسل الأشهر لناذج ماركوف الخفية 

تعتمد أغلب ناذج المحارف على طوبولوجيا باكيس (883145) لسلاسل ماركوف 
الخفية» وهو اسم للطوبولوجيا التي تسمح دائم) بتخطي المرحلة التالية من السلسلة إلى 
التي بعدها ى) يبينها شكل ١7‏ (ب). والسر في اللجوء لهذه السلاسل يكمن في مرونتهاء 
خاصة وأن حروف العربية تتفاوت في العرضء بل إن عرض الحرف نفسه قد يختلف 
من موضع لآخر بسبب استعمال التطويلات أو أسلوب خط معين. وهذا لا يعني عدم 
وجود بحوث ناجحة استعملت طوبولوجيات أبسط (كالخطية [75.57:»55]) وأعقد 
[؟ ]من طوبولوجيا باكيس»ء لكن المقصود الإشارة لما اتفق على استعماله أكثر الباحثين. 


)0022+ )()()(2)( 
- 0 0 0-0-0-0 


4 (ب) 


كل 10153 (1) طوبولو عيااخطية (ن)طويولن حيا باكيس. 
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الخوارزميات الأشهر لتدريب ناذج ماركوف الخفية 

بعد نمذجة المحارف» يكثر استعمال خوارزمية فيتيربي (51ئع]91). والتي 
ظهرت لأول مرة في منتتصف الستينيات من القرن الماضىء لتحديد التسلسل الأمثل 
لناذج ماركوف اعتادا على البرمجة الديناميكية ( 25087220120128 016طةم109آ) 
[:6”ه.:»١5»١١)].‏ 


ولتحديد احتمالات الانتقال الأنسب بين الناذج؛ فكثيرا ما يُستعمل خوارزمية 
تدريب تعرف هي الأخرى باسم مخترعيهاء باوم وويلتش (ط110/لآحمسه8) 
[5 .6.7765 ]. وللمزيد» يمكن الرجوع لبحث ١‏ تقنيات التعرف الالي 
على الكلام المنطوق وتطبيقاتها في القرآن الكريم-واقع وطموح» في كتابنا السابق 
«الحرف العربي والتقنية») 511 9]. 

النمذجة اللغوية 

قد يستعان بعد التصنيف بنوع آخر من الناذج لترجيح كفة المقبول والشائع 
احتاليا ولغويا من الكلمات. وهذه تسمى بالناذج اللغوية. وناذج ماركوف الخفية 
تتبح استعال الناذج اللغوية (وخاصة «الورودات السايقة») 235ه2ع-2) بسلاسة. 
فقد استعملت هذه الناذج على مستوى الحرف والمحرف إلى 4 ورودات سابقة 
بعدما حسبت من «مدونات لغوية» حوت عشرات الملايين من الكليات [01728]. 
كما قد تستعمل أيضا أجزاء-الكلمات للنمذجة اللغوية [54] ضمن تنويعات أخرى 
لوحدات النمذجة اللغوية. 


بترن التعلم العميق للتقطيع ضمني 

موجة «التعلم العميق») (1.6310118 م1066) صاعدة -هذه الأيام- في شتى مجاللاات 
رؤية الحاسب (1/15100 1]617ام0012)» وليس التعرف على النصوص مستثنى من 
ذلك 4601 0]. التعلم العميق قائم على الشبكات العصبية الاصطناعية (810166181 
15 71111311 أو 111له) كثيرة الطبقات. وإذا استعين فيها بتقنيات للتصنيف 
الز مني التو صيلٍ (دم ادع 5 1دمة01 0121 ع1 أكندمتاععصمه© أو ©1©) والشبكات 
العصبية المتكررة 2161/0110 1قتتناء1! أاعتنتات126 أو 10111) وبنى الذاكرة قصيرة- 
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المدى الطويلة (/701مع1/1 منع]'-1زمطاك عدمآ أو 1:5114). تصبح ماهرة في التقاط 
السياقات المشتركة -وإن تباعد ورودها-» وهو ما يجعلها مفيدة في مجال التعرف على 
النصوص دون التقطيع المسبق [09]. 

لذاء فقد تحت هذه التقنيات الحديثة الباب للتعرف على النصوص العربية المكتوبة 
بالتقطيع الضمني كما في 56596751 7]. فالشبكات العصبية التكرارية للتعرف الآلي 
على النصوص دون تقطيع سمكن أن تستخدم على النهج الذي قدمه 612965 و 
أءطنطلتنسطاء5 ثم عاد فطوره 0135765 لاحقاء» بحيث تعالج العناصر الصورية في 
شبكات عصبية تكرارية متعددة الأبعاد (81ناكت1! ]ئا6:تتناءع»1 [251008عمن اا 1/111 
710516 أو 211011111 اختصارا). 


1و ,” نماذج ماركوف الخفية مع التعلم العميق 

تنتشر طرق هجينة لاستعمال التعلم العميق جنبا إلى جنب مع ناذج ماركوف 
الخفية (ي| في [/0] و[57]). فنماذج ماركوف الخفية قد تستعمل في محاذاة المحارف 
مع صورها (التقطيع الضمني) -مثلا- قبل التعلم العميق للمحارفء. أو لتدريب 
الشبكات العصبية التكرارية مع البنى ثنائية للذاكرة قصيرة-المدى الطويلة على نتاج 
تلك المحاذاة القسرية» قبل استعمال نتائج هذه الأخرى لإعادة تدريب ناذج التعرف 
النهائي على النصوص [57[11151[1755]. 

وقد قَدَّمت دراسات قارنت بين نظم مبنية على التعلم العميق (كالشبكات العصبية 
التكرارية مع الملامح ذات الذاكرة قصيرة-المدى الطويلة (أي 10/11 مع 51231:)) 
للقراءة الآلية العربية وأخرى على ناذج ماركوف الخفية [14] باستعمال نفس الملامح, 
استطاع في أغلبها نظام التعلم العميق التفوق على غيره. وخلصت دراسة مقارنة إلى أنه 
ليس ثمة فرق كبير بين استعمال الشبكات العصبية التكرارية مع الملامح ذات الذاكرة 
قصيرة-المدى الطويلة وبين استعمال الشبكات العصبية العادية (311.5)» وأنه لا فرق 
يذكر كذلك بين استحداث واستعمال ملامح متقدمة وبين تقديم العناصر الصورية 
بصورتها الخام إذا تم تدريب كل نظام با يناسبه [151]. وهذا ما يحث الباحثين إل 
محاولة تفهم هذه الأنظمة وخصائص كل منها بشكل أكبر» ويدعوهم للتدقيق في 
نتائج التعرف والمقارنات بينهاء وهو ما لا يتأتى إلا بفهم طبيعة البيانات التي تتم 
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عليها مرحلة الاختبار. لذاء فقد أفردنا الفصل التالي للتعريف بأشهر قواعد بيانات 
الكتابة العربية اليدوية التي تستعمل في تدريب واختبار وتقرير نتائج المتعرفات الآلية 
في البحوث العلمية. 


؛ - مقارنات لبعض أشهر أنظمة التعرف الآلي على النصوص العربية المكتوبة 
بخط اليد 

قبل المقارنة بين النتائج المنشورة لأي متعرفات» يجدر بنا التعرف على قواعد البيانات 
التى تجِرى اخختبارات كفاءة المتعرفات الآلية عليها. وفيا يل» نذكر أشهر هذه القواعد 
دع ل علهاة كم يع الله تقدم جتداول الأكنهن أنطمة التعرف الل عل اللضوصى 
المكتوبة بخط اليد مع إيراد نسب الخطأ فيهاء والإشارة إلى خصائصها وقواعد البيانات 
التي قررت نتائجها عليها. 

١‏ قواعد بيانات للكتابة العربية اليدوية 

نعرض فيه يل تسع قواعد بيانات -مرتبة حسب وقت نشرها التقريبي- مع نبذة 
عن كل منها. ثم نعرض بعدها مقارنة جدولية لها. 

١‏ ,ك قاعدة بيانات الإسراء 

تتكون قاعدة بيانات الإسراء (02]85356 15184 آث) [/70] من كليات عربية 
وأرقام وتوقيعات وجمل حرة: معت من حوالي مائة طالب من جامعة الإسراء الأردنية 
لصالح باحثين في جامعة كولومبيا البريطانية. ولكن -وكأغلب قواعد البيانات حينها- 
فقد افتقرت قاعدة الإسراء إلى فقرات نصية كاملة مكتوبة في بيئة طبيعية. 

١١"‏ ,4 قاعدة بيانات الشيكات العربية 

جمع العوهلي وآخرون قاعدة بيانات لسندات مصرفية (شيكات) عربية 
(052124131) [7] والتي اشتملت على نصوص وأرقام تم استخراجها من ٠٠٠١‏ 


سندا وفرها مصرف الراجحيى في المملكة العربية السعودية. لذاء فهذه القاعدة قد تفيد 
كثيرا تطبيقات التعرف على محتوى السندات البنكية. 
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١*‏ ,4 قاعدة بيانات النص العربي المكتوب بخط اليد 

تتضمن قاعدة بيانات النص العربي المكتوب بخط اليد (861:ى 101 103626356 
لاع :مدا أو 18108ى) الكلمات المستخدمة في كتابة المبالغ على السندات 
المصرفية ىا اشتملت أيضا بعض صفحات الكتابة الحرة بخط ٠١٠١‏ كاتب [18]. 


؟ و١‏ و5 قاعدة البيانات الحرة للأحرف العربية بخط اليد 

أعد الباحثان خضر وعبندة [5] قاعدة بيانات مبكرة للأحرف العربية كتبت بشكل 
حر (بلا قيود على طريقة الكتابة) من قبل 58 كاتبا. ى| طلبوا كتابة فقرة نصية حوت 
أشكال المحارف والأعداد العربية وبعض الرموز دون فرض قيود على طريقة الكتابة. 


5 ,4 قاعدة بيانات الأرقام» والحروف. والرموز المعزولة والمتصلة في كلمات 
وهي قاعدة بيانات طورها العمري لتحوي أرقاماء وحروفاء ورموزا كتلك التي 
تكتب في التواريخ والأعداد والكلمات [14]. 


5 ,4 قاعدة بيانات الأعداد العربية 

قاعدة بيانات الأعداد العربية المكتوبة بخط اليد (0ع]013صفط 6ه عمدطة02 هم 
عذطةة أو 8108356 ) مناسبة لأهداف التعرف الآلي على الأرقام العربية (والتي تعرف 
أيضا بالأعداد ال هندية) .]/١[‏ 


/ار١اوة‏ قواعد بيانات مشروع تحليل وترجمة وتصنيف المستندات متعددة اللغات آليا 

مشروع تحليل وترجمة وتصنيف المستندات متعددة اللغات آليا ([1/]161108108 
ممتكهاكممعا" امه كلكتزلهصخ .«صمنادء قزوئ0 اأمعصسعو2 عتأقسماستى أو 
'81412047) ترعاه الوكالة الأمريكية لمشاريع الأبحاث المتقدمة (24124) ببدف 
دعم الجيش الأمريكي بقدرات على القراءة والترجمة الآلية من عدة لغات» من أهمها 
العربية 711]. أنتج المشروع في مراحله الأول نصوصٌ تدريبٍ مكتوبة بخط اليد 
حيث تعاونت الوكالة مع اتحاد البيانات اللغوية (00050111110 10868 5]16نناعمنآ أو 
100) لإنشاء قاعدة البيانات التى حوت ”9597 صفحة مكتوبة بخط اليد.» شملت 
وثائق عربية أصلية (رمّزت وقطعت إلى أسطرء ومسحت ضوييًا بدقة ٠٠١‏ نقطة في 
البوصة» ووسمت أجزاؤهاء وترجمت نصوصها إلى الإنجليزية). 


5 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لباك كش -_||سيييىو,ى ااا 


مصادر الوثائق حوت -في الغالب- من الأخبار والمدونات الإلكترونية. وقد 
أقيمت مؤخرا مسابقات (62113191م[7771[)21151-0] للتعرف على أسطر نصية» وقد 
أتيحت جزئيا لبعض الباحثين» ولكن ما تزال أكثر توزيعاتها وأساليب مقارنة النتائج 
سرية فيها [1/7 1527/7 ]. 


,4 قاعدة بيانات '11713/12117 

تعاون كل من معهد تكنولوجيا الاتصالات علنصطءء امع اطاء عطعداظ عن امكتادم]1 
أو 117) في جامعة براونشفايغ التقنية (ع 1ع 'ككطاءكطتلة81 34 زداء 'كتملآ عطء صتتصطعع1) 
في ألمانيا مع المدرسة الوطنية ال هندسية في تونس (06 5تناعنط0'1086 5120000816 عامء8 
19 أو '82111) لإخراج ما كان حينا من الدهر المرجعية الأكثر شيوعًا لتقرير نتائج 
بحوث التعرف على النصوص العربية المكتوبة بخط اليد [1/5]؛ وقد يرجع السبب في 
انتشارها لتوفرها مجانا منذ نشأتها ولنشاط منشئيها في خدمتها وعقد المسابقات عليهاء 
فقد تم استعمال قاعدة '82111/ 11731 في مسابقات عديدة للتعرف الآلي على النصوص 
العربية» عرضت نتائجها في مؤتمرات مهمة [5/ا-9/ا]. 

تتكون هذه القاعدة من صور مكتوبة بخط اليد لأساء 97077 مدينة وبلدة تونسية 
(أي أنبا تضمنت معلومات للخدمة البريدية في الأصل) مقسمة إلى سبع مجموعات 
(0.2.8.185 .4.8 بعد إضافة المجموعتين 1 و5 مؤخرا). وتعتبر مجموعة 5 الأكثر 
صعوبة لأنها لم تجمع في نفس بيئة بقية المجموعات» فتضمنت أناطا كتابية مختلفة عن 
المجموغات الأخرى: 

84 ,5 قاعدة بيانات «خط) 

ع قاعدة بيانات «خط) (ع0128635 '1زع1” عأطهتظ داع 1 كلصد11 1111211 
أو '1>81417) بالكتابة الحرة [7»80]» حيث تحوي فقرات كتبها ٠٠٠١‏ شخص (كل 
منهم كتب أربع فقراتء اثنتان منها نصهم| موحد). 

تحوي القاعدة صور الفقرات مقطعة على مستوى أسطر النصوصء وتنقسم إلى 
ثلاث جموعات: جموعة التدريب (4858 سطرا)» وجموعة التطوير (/*91 سطرا): 
ومجموعة الاختبار (977 سطرا). 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


5,١٠‏ جدول قواعد بيانات الكتابة العربية اليدوية 
نلخص ف الحدول أدناه و صف وعدد كتاب بعض . قو اعد السانات المذكو رة آنفا. 
في اججدو و و ب بعص فو م 5 


جدول :)١(‏ ملخص بعض قواعد بيانات الكتابة العربية. 


مختصر اسم قاعدة البيانات 
00 وفك عم عدد الكتاب 
مع إحالة مرجعية ١‏ 
82111 75,109 صورة لأساء مدن وبلدات تونسية 6١‏ 
,ل" صورة كلمة و ٠١,٠٠٠‏ ة عدد 
الإسراء [/ا5 ] 1518-الىم 0 1 22 60م 
و7000 صورة توقيع و0060 صور لجمل 
٠ 1‏ على 
شما ,4 صور لصفحات من وثائق أخبار وغيرها 1 
1 الأقل 
شيكات ف الرا- 5 
2 مصبرقه الراجني صورة لقيم شيكات بالأرقام والحروف - 
[/ دم 0 
[] 1108م ٠‏ صورة لمصطلحات شيكات مصرفية 06 
[21.15 اه #عطلعط1 | صورحروف :5 
٠‏ صورة لأعلاد و5794,١‏ 
العمري صورةلأرقام (سلاسل عددية) 7١54779‏ صورة 565 
أء تتسواث [59] الحروف وها ١١صورة‏ لكلمات و٠55,١‏ 
صورة لرموز كتابية خاصة وعلامات ترقيم 
الأرقام العربية 5 
2 م العرير 00,٠٠‏ صورة لأعداد و٠7‏ 
]7١[‏ عمهة8([م 
قاعدة بيانات «خط) 0٠٠‏ صورة نموذج و٠0٠0٠,"‏ صورة لفقرات : 
[ 24> اكتابة حرة 


وبعد تعرفنا على بيانات الاختبار نستطيع تقديم مقارنات لأنظمة التعرف الآلي 
على الكتابة اليدوية العربية الأبرز في البحوث العلمية» وتقارير نتائجها حسب قواعد 
البيانات التى اخشيرت عليها. 


مم 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك 4 ةث د --__||سسيييىو وى ااا 


؟ مقارنة أهم بحوث المجال 

نلخص هنا أهم البحوث المنشورة في مجال التعرف الآلي على النص العربي المكتوب 
بخط اليد. وسنقسم مناقشتنا إلى ثلاث مجموعات: الأولى لأهم بحوث التعرف على 
الأعداد والمحارف المنعزلة» والتعرف الكلى على أجزاء الكلمات العربية» ومحاولات 
مبكرة للتعرف على الكلمات كليا أو التعرف القائم على التقطيع الصريح. والمجموعة 
الثانية لأهم البحوث التي اعتمدت في تدريبها وتقييمها على قاعدة '1821151/ 15271 [5 /1] 
وذلك لما تتسم به هذه القاعدة من أهمية وشعبية من جانبء ولأنها محدودة الكلمات, ما 
يمكن من التعامل معها بأسلوب خاص. والمجموعة الثالثة لأهم بحوث التعرف الآلي 
على الصور النصية التى تحوي عدة كلمات ذات الخنصائص اللغوية المفتوحة (ليست 
كلمات محدودة كما في قاعدة '587117/ 11121). 


١‏ أهم بحوث التعرف على الأعداد» والمحارف. والكلمات. وأجزاء الكلمات 
المنعزلة 

نقدم في جدول "ملخصًا للأعمال المتعلقة بالتعرف على الأعداد والمحارف المقطعة 
والكلمات وأجزاء الكلمات العربية. يتيح الجدول المقارنة بين أداء أعمال ممثلة في هذا 
المجال» حيث ترتبط الجوانب الرئيسية لفاعلية التعرف بالمعالجة المسبقة» والملامح 
والمصنفات. 

يعد التعرف على الأعداد المكتوبة بخط اليد أحد أسهل مهام التعرف إذ أن الأصناف 
فيها (من ٠‏ إلى 4) قليلة. لذلك» نجد تقارير عن نسب نحاج بمعدل ٠1/49‏ 4]؛ أي 
أنبا «مشكلة محلولة». أما التعرف على الأرقام (أي السلاسل التي تحوي عدة أعداد) 
حيث قد تتلامس الأعداد المتجاورة فها زالت اشكل تحديا وتحتاج مزيد حل [81]. 
وأهم تطبيقات التعرف على الأعداد والأرقام هي قراءة السندات المصرفية آليا. 

يشبه التعرف على الأعداد سهولة التعرف على المحارف المنعزلة؛ حيث تكمن أهم 
التحديات ني التعرف على المحارف التى تتشابه أو تشترك في الشكل وتختلف في النقط. 
والعنايك اعهار الامدكله ادرف عل العار نت التوولة شاولة إلى سل كب قير 
أن استخدامات الحروف المعزولة عمليا محدودء ربها كانت أهم تطبيقاته هي القراءة 
الآلية للرموز البريدية في البلدان التي تعتمد الحروف العربية المنعزلة لهذه الرموز. 


#4 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


وأما التعرف على الكلمات العربية -كليا أو بشيء من التقطيع- فلا تكاد تنجح إلا 
عندما يكون مجال المفردات الكلي لهذه الكلمات محدودّاء كما في مهام التعرف على أسماء 


مدن أو قيم مكتوبة خطيا. 


نعرض في جدول ١بعض‏ المساعي للتعرف على على الأعداد. والمحارفء والكلمات» 
وأجزاء الكلمات العربية المتصلة دون تقطيع يذكر. 


جدول (5): بحوث في التعرف على الأعداد. والمحارف» والكلمات» وأجزاء الكلمات العربية المتصلة. 


أ 11ت 1خ 
21,849 
]481١[‏ 


ط ل هحمل 
حطة 
14 
5٠١9 ]50[‏ 


نتائج التعرف 


* نسبة الخطأ 
في التصنيف 
3 و١‏ 
للأعداد غير 
المتللامسة 

* نسبة الخطأ 
في التصنيف 
000 
لالأعداد 


وهم 


قاعدة البيانات 


*صور أعداد من 
قاعدة 01831241311 
للشيكات العربية 
- 55,1785 
صورة للتدريب 
- 5,144 صورة 
١7 -‏ صورة 
لأرقام فيها 
أزواج متلامسة 
من الأعداد 
» قاعدة من 
5 صورة 
بيد 5 5 كاتبا 
١06.85٠ -‏ صورة 
للتدريب 
-و0٠78,ه‏ 


صورة للتقييم 


0 نظام/5171 
نواته 1690181 
21 
1 

* ملامح تدرجية 

* خوارزمية 
قواعدية 
لفصل الأعداد 
المتلامسة 


* نماذج ماركوف 
الخفية المنتفصلة 

9 ملامح التدرج 
والتقعر 
الهيكلية (65860) 

*تقسم الصورة 
إلى إطارات 
لكل منها نفس 
عدد العناصر 
الصورية تقريبًا 


10 
-آأى لمهة 
1.411 

١٠٠١] 851 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل4هككك4 د ---_||سسييييىو وى ااا 


نتائج التعرف 


* نسبة الخطأ 
في التصنيف 
ه٠١‏ عند 
استخدام 
مصنف 9171 
* نسبة الخطأ 
في التصنيف 
2/589 عند 
استخدم نماذج 
ماركوف الخفية 
* نسبة الخطأ 
في التصنيف 
/١ 6‏ عند 
استخدام الجارا 
الجيران الأقرب 
]ا 


حالاؤوت 


قاعدة البيانات 


»ءصور أعداد 
من قاعدة 
11م لان 
للشيكات العربية: 
رت صورة 
للتدريب 


ب 006" صورة 


- آلاات 
متجهات 
الدعم 4 

0 الجيران 
الأقرب 
اال ]1 

9 تم استخدام 
ملامح 
مأخوذة من 
مرشح «جابر) 
اللوغاريمي 
(03602 ع0.آ) 
بمقاييس 
وتوجهات 
المختلفة 


عي ام 


أء أع عط 
1ك 
[87] 


أء تتقطعداء 10 
لد 5٠١١1‏ 
[؟”] 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


نتائج التعرف 


* نسبة الخطأ في 
التعرف على 
«أجزاء الكلمات 
العربية» كانت 
75 


5غ 


قاعدة البيانات 


٠.‏ صور أجزاء كليات 
معزولة من قاعدة 
11 خط ان 
للشيكات العربية: 
- 172 نوع من 


أجزاء الكلمات 


2,٠٠‏ كلمة 
مكتوبة بخط اليد 
لأسماء ١94‏ مدينة 
كالتالي 
- 766 للتدريب 


/5٠ -‏ للتقييم 


ع كم 


ع0 وتام 
.0لواء 
[:8] 


.له أء طوتهة 1 
[846] ك١‏ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
1و1و1 


نتائج التعرف 


* نسبة الخطأ 
التقريبية 
للكليات: 
)0 تم 
استدراكها إلى 
"١‏ بالمعالجة 
اللاحقة 


* نسبة الخطأ 
التقريبية 
للكليات: 7/57 


5 


قاعدة البيانات 


2٠٠»‏ 5 كلمة 
مكتوبة بخط ٠٠١‏ 


كاتب 


- سلسلة لكل 
كلمة 
- أوائل المرحل 


صف 


الكلمات إلى 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


5 ,؛ أهم بحوث التعرف على قاعدة بيانات'172/11/ 1173 

يقدم جدول ” بيانات لأهم البحوث التي اعتمدت قاعدة بيانات '52111/ 15:31. 
ونلاحظ أن استخدام المصنفات المستندة إلى ناذج ماركوف الخفية 110114 هي النهج 
السائد هذه الفئة. بجانب التحديات التقليدية للمعالجة المسبقة» وتطوير الملامح 
والاستخدام الفعال للمصنفات؛ يجب أن يقرر المتعامل مع كلمات قاعدة بيانات / 11721 
'1511 وحدات النمذجة التى سيعمل عليها (الأحرف أو المحارف أو أجزاء المحارف» 
أو الكلماتء أو أجزاء الكليات). 


جدول (7): بعض أهم بحوث التعرف على كلمات قاعدة بيانات 170/1/ 11781. 


أجزاء القاعدة : 
2 ”| نسبة الخطأ 
المستعملة 0 سهات النظا 
النظا التعرة ا حظات 
#رجع 10 | العدر- ا المختصرة تت 
والتقييم : 
أ 31/122511 * نظام هجين من 
0 اك - ناذج ماركوف 
الخفية 
- والشبكات 
اسوك ١5‏ " ' 0 
الاصطناعية 
* مبني على التقطيع 
الصريح 
لاع ممع 8 * ناذج ماركوف الخفية 
0 اء شبه- المتصلة 
7 3266-0 4 - سلسلة بعدد ثابت 
من المراحل لكل 
حرف 
داعو طسقطء5 #علوءطة | *ثلاث ناذج ماركوف النظام الفائز في 
لقاة للتعرف على المحارف | 10241270010 
61 افك 7" 1 ] 


دعوت 


اء زلة11-ام 
5 


أء /اكلاء:101 


غطلة 31.٠١١4‏ 
[5ه][ه75] 9 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
ل4هككك4 د ---_||سسييييىو وى ااا 


أجزاء القاعدة 
المستعملة 
للتدريب- 


والتقيب 


ل-ع36 


26-0 


ع-0ع236 


١١5” 


* عدة ن|ذج ماركوف 
متصلة للتعرف على 
المحارف والفراغات 
البيضاء 

* تنفيذ فكرة النوافذ 
المنزلقة المائلة إضافة 
إلى العادية 

* ناذج ماركوف 
متصلة للتعرف على 
المحارف والفراغات 
البيضاء 

٠تمتالاستعانة‏ 
بتحويرات صورية 
لزيادة تنوع صور 
التدريب 

* إمكانية التأقلم على 
خط معين متاحة 

* الملامح مبنية على 
شرائح الصور 

* استخدام خوارزمية 
«تحليل المكونات 
الرئيسية» ([مأعمتم 
ألاعده مام 


رك اط) وز وتزلهمة) 
لتقليل عدد الملامح 


8 هت 


ملاحظات 


أصحاب النظام 
الفائز آنفا في 
4 11ظ1 
لقة 


رادم 


أ؟ 1لاأطعووع ]1 


6٠١ ]91[‏ ”يله 


أ 7127تخطاعء 2 


[51]؟١‏ له 


أ 813131:3[92 


[4]؟١١1١‏ له 


اع ةط ]1 


كلم ته 
1ك ١١1]‏ 


0 رامين 
01 ] 


أجزاء القاعدة 
المستعملة 
للتدريب- 


معلعط36 


لعطة 


لعطة 


4لعطة 


حعل0ء36 


همع0ع26 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


506 


105 


سهات النظام 
المختصرة 


* ناذج ماركوف 
متعددة الروافد 

* ملامح كنتورية ومن 
العناصر الصورية 

* كل ملمح يعبر في 
رافد مستقل 

* ناذج ماركوف 
الخفية شبه-المتصلة 
للمحارف 

٠‏ ملامح من العناصر 
الصورية 

* التدريب بخوارزمية 
1111 

* ناذج ماركوف الخفية 
التصاة للميخارك 

0 التأقلم التلقائى على 


٠.‏ امشخداة «تحليل 
المكونات الرئيسية» 
(4ن)2©) لتقليل عدد 
الملامح 


* شبكة عصبية متكررة 
(نواة تعلم عميق) 

* بنية ثنائية للذاكرة 
قصيرة المدى طويلة 

* ملامح من العناصر 
الصورية 


حاقاوت 


صاحب النظام الفائز 
في مسابقة +1041 


١٠٠١9 ]41/[ 


مرجع النظام 


له 231162 


110 
١١1١ ]44[ 


20 عع مر 


3١1‏ لعسمتطم 
[١٠ا]‏ 


أ 11060627 


21.5 01١5]50[ 


أء طلملمدطم 


ةلث5١١]51[‎ 


أجزاء القاعدة 
المستعملة 
للتدريب- 


التدريب على 

حروا ف مقطعة 
ليست من 

1/11 

والتقييم على 

علءط3 
ل©عطة 
علع26 


-عل0ء36 


همع0ع26 


ةك 
عحلء26 
]جعلء6ة 
معلء26 
4 كلدك 
علءطة 
]جعلء6ة 


همع0ع26 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لباك كش -_||سيييىو,ى ااا 


55 


سهات النظام 
المختصرة 


كام حكن 

* مصنف الجار الأقرب 

»المحارف تمثلة عبر 
مقاربة المضلعات 
الضبابية 


* عدة ناذج ماركوف 
متصلة للتعرف على 
المحارف والفراغات 
البيضاء بعد تطبيعه 
عرضها 

ملامح التدرج 
والتقعر 

* إعادة تنفيذ فكرة 
النوافذ المنزلقة المائلة 
إضافة إلى العادية 
1] 

* نماذج ماركوف الخفية 
البيرنولية 

* الملامح: العناصر 
الصورية الثنائية 


* شبكة عصبية متكررة 
(نواة تعلم عميق) 

* بنية ثنائية للذاكرة 
قصيرة المدى طويلة 


"تتطيم صريج 


* عدة ملامح متنوعة 


-لاع- 


أصحاب النظام 

الفائز [84] في 

11111٠ 
[8/ا]‎ 


مرجع النطام 


أء التق تنه 11 


21.5701 [7ع]‎ 
]١7[ 


.21 أء 20ستطم 
:1 
[١٠ه.4ئة]‏ 


0 20متطم 
[؟ه]علصاط 


أجزاء القاعدة 
المستعملة 
للتدريب- 


ومعلعط6ة 


26-0 
علعطة 
اعلعطة 


ومعلءط6ة 


26-0 
علء36 
#دعلءط3 


معل0ء26 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


١6 


١115 


المكونات الرئيسية» 
رممم) لتقليل عدد 
الملامح 

. تم استخدام 
خوارزمية 17116101 
جزئيا 

* نماذج ماركوف 
الخفية المتصلة متعددة 
الروافد 

ناذج لأبعاض 
المحارف (تحت- 
المحرف أو -5115 
ع ل ) 
وللفراغات البيضاء 
وللتطويل بين 
الحروف 

* نماذج ماركوف 
الخفية المتصلة متعددة 
الروافد 

* فصل الكتابة عن 
النقط والتشكيل 


-/غ- 


ملاحظات 


عرضوا النظام الفائز 
في 111 


ا 


51 


اعع0 ل00مة 
[ ]0 


أجزاء القاعدة 
المستعملة 
للتدريب- 


والتقييم 


ل-عطة 
علع26 


اعلعءطة 


همع0ع026 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل4هككك4 د ---_||سسييييىو وى ااا 


ها 


وتزيد 


* استخدام «تحليل 
المكونات الرئيسية» 
(دمعم) لتقليل عدد 
الادمع 

أقلمة التدريب لخط 
الكاتب المعين 


",4 أهم بحوث التعرف الآلي على كلمات حرة 
وأخيراء نعرض في جدول ؛ نتائج أنظمة التعرف على نصوص الصور التي تحوي 
عدة كلمات حرة. فالفرق بين ما ههنا وما قبله أن هذه بمقدورها الاعتماد على نماذج 
لغوية عامة لتحسين النتائج. علاوة على ذلك» فبعض الأنظمة هنا تعالج صورا تتضمن 
عدة أسطرء تما يضفي بعدا آخر مهما للمسألة» وهو تقطيع الأسطر ضمنيا. 


-94غ5- 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


جدول ؛ بعض أهم بحوث التعرف على الصور التي تحوي عدة كلمات حرة. 


أ© لطاعه 521 


اح ل اك 
[51] 


اها 


5 4.5لواء 
[4] 


نسبة الخطأ في 
التعرف الكلمى 


ف 


5 


قاعدة البيانات المستعملة 
قاعدة مشروع تحليل 


وترجمة وتصنيف 
المستندات متعددة اللغات 
آليا للأحرف» وتشمل: 
وثيقة للتدريب 
9 وثيقة للتطوير 
© وثيقة للتقيين 


قاعدة «مشروع تحليل 

وترجمة وتصنيف 

المستندات متعددة اللغات 

آليا» للأحرف». وتشمل: 

9" وثيقة 
للتدريب 

وثيقة للتطوير 


* 116 وثيقة للتقييم 


-80 ٠ 


سمات النظام المختصرة 
* سلاسل ماركوف المتصلة 
* العديد من الملامح» وتم 
تقليص عددها آليا 
«الحهدف: التعرف على 
المحارف ومن ثم 
الكليات 

* استخدمت نإذج لغوية 
مداها ” أحرف قدرت 
من مدونة نصية قوامها 
٠١‏ مليون كلمة عربية 
(17 ألف كلمة بحذف 
التكرار) 

* سلاسل ماركوف المتصلة 
* العديد من الملامح» وتم 
تقليص عددها آليا 
«الحهدف: التعرف على 
المحارف ومن ثم 
الكليات 

* إمكانية التأقلم على خط 
كاتب معين 

* استخدمت نإذج لغوية 
مداها ” أحرف قدرت 
من مدونة نصية قوامها 
١7‏ مليون كلمة عربية 
٠٠١(‏ ألف كلمة بحذف 
التكرار) 


أء امتقلططتة 11 


اح لان 
[41] 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
ل4هككك4 د ---_||سسييييىو وى ااا 


نسبة الخطأفي 
التعرف الكلمي 
ا 
للتعرف المقيد 
على 4١0‏ ألف 
كلمة بدون 
التكرار 
001 
للتعرف بدون 
قيود على ٠٠١‏ 
ألف كلمة بدون 
التكرار 

/ 
للتعرف المقيد 
على ١١‏ ألف 
كلمة بدون 
التكرار 
51خ 
للتعرف بدون 
قيود على ٠٠١‏ 
ألف كلمة بدون 
التكرار 


قاعدة البيانات المستعملة 
مشروع تحليل وترجمة 


وتصنيف المستندات 
متعددة اللغات آليا 


,ألف صفحة 
للتدريب 


"و0 ؛ صفحة للتطوير 


قاعدة بيانات «خط) 


وه ,4 سطرا 
للتدريب 

و”40 ١,‏ سطرا 
للتطوير 

١,991 *‏ سطرا للتقييم 


نحط 0ت 


سوات النظام المختصرة 
* سلاسل ماركوف المتصلة 
. الملامح تضمنت العناصر 


الصورية الرمادية 

»«تحليل المكونات 
الرئيسية» (704©) لتقليل 
عدد الملامح 


* يستخدم التعرف المقيد 
كلمات التدريب كنموذج 
لغوي بين| يستخدم 
التعرف غير المقيد مدونة 
نصية من مليار كلمة 
تقريبا 


أء التشلطتتة 11 


265 
[5؟] 


أء امتملطتة 11 


21.65 
]37[ 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


نسبة الخطأ في 
التعرف الكلمي 
1 
للتعرف المقيد 
على 15 ألف 
كلمة بدون 
التكرار 


/ 


قاعدة البيانات المستعملة 
قاعدة بيانات مشروع 


نحليل وترجمة وتصنيف 

المستندات متعددة اللغات 

آليا 

ألف صفحة 
للتدريب 


"و0 ؟ صفحة للتطوير 


قاعدة بيانات مشروع 

تحليل وترجمة وتصنيف 

المستندات متعددة اللغات 

آليا 

ألف صفحة 
للتدريب 

»و40 صفحة للتطوير 


و7" صفحة للتقييم 


ضام - 


سمات النظام المختصرة 


* التعلم العميق (/1281.5110 
جنب مع سلاسل 
ماركوف المتصلة 

« الملامح تضمنت العناصر 
الصورية الرمادية 

»«تحليل المكونات 
الرئيسية» (04)©) لتقليل 
عدد الملامح 
لغوي بين| يستخدم 
التعرف غير المقيد مدونة 
نصية من مليار كلمة 
تقريبا 

* إمكانية التأقلم على خط 
معين 

* نظام هجين من التعلم 
العميق ونماذج ماركوف 
الخفية 

« الملامح تضمنت العناصر 
الصورية الرمادية 

* نموذج لغوي من ؟ 
أحرف محسوب من 4٠١‏ 
ألف كلمة (بدون التكرار 
من مليار كلمة) 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل4هككك4 د ---_||سسييييىو وى ااا 


النظا امطاب قاعدة البيانات المستعملة 
5 : : عدة السانات المسه 
220 | التعرف الكلم الدطتكة 
1 أ 0360 قاعدة بيانات مشروع 
5٠١1١5 ]55[‏ تحليل وترجمة وتصنرة 
المستندات متعددة اللغات 
آليا 
لا © مجموعة 21151 
50 11معءم0 
"5/ "المجموعة1 
أء عطعسا8 5١1١ * ١‏ قاعدة بيانات مشروع 
٠١1١5 ]5:[‏ للتعرف المقيد | تحليل وترجمة وتصبة 
:و4 المستندات متعددة اللغات 
للتعرف غير | أليا 
المقيد 


- 


سات النظام المختصرة 
* سلاسل ماركوف المتصلة 
* عدة ملامح من ضمنها 
مرشحات «جابر) 
* إمكانية التأقلم على خط 
معين 
»جين عدة أنظمة 
لتحسين النتائج 


* نظام هجين من التعلم 
العميق ونماذج ماركوف 
الجارف 

« الملامح هي العناصر 
الصورية 

»يتم التعرف بعد ؟ 
الأربعة 

* التدريب على كلمات 

« نموذج لغوي من ٠"‏ 
أحرف محسوب من 5١‏ 
ألف كلمة 
لغوي بين| يستخدم 
الدعر ف غير اللقين مادوةة 
نصية من مليار كلمة 
تقريبا (0615217/0:0) 


أء أع21/103:55 


21.505 
[؟>] 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


نسبة الخطأ في 
التعرف الكلمى 


041 


قاعدة البيانات المستعملة 
قاعدة بيانات مشروع 


تحليل وترجمة وتصنيف 
المستندات متعددة اللغات 
آليامن 4,179 منطقة 
١ "9‏ منطقة نصية 
للتدريب 
منطقة نصية 


للتطوير 


عم 


سمات النظام المختصرة 


* نظام هجين من التعلم 
لعميق ونماذج ماركوف 
الخفية للتعرف على 
المحارفء والكليمات» 
وأجزاء الكليات العربية 

الملامح هي العناصر 
الصورية 

»يتم التعرف بعد ؟ 
الأربعة 

* التدريب بدأ بالكلمات 
الأدق ثم الأقل دقة ثم 
بتحويرات صورية على 

ل 3 3 1" 2 ق 
للأسطر 


12 2 


الك ك الل 
[54] 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
ال لكك د -_||سيييىو وى ااا 


نسبة الخطأفي 
التعرف الكلمي 
84 عند 
استعمال نماذج 
لغوية من ؟ 
أحرف لأجزاء 
الكلمات 
”3”/ عند 
استعمال نماذج 
لغوية من 7 
أحرف للكلمات 
وأجزاء الكلمات 
/7”71١‏ عند 
استعمال نماذج 
لغوية من ؟ 
أحرف لأجزاء 
الكلمات 
7 77”/ عند 
استعمال نماذج 
لغوية من 7 
أحرف للكلمات 
وأجزاء الكلمات 


قاعدة البيانات المستعملة 


قاعدة بيانات من مشروع 
تحليل وترجمة وتصنيف 
المستندات متعددة اللغات 
آليا 

,7 سطرا 
للتدريب 

* 6 سطرا للتطوير 
« 8 ,7 سطرا للتقييم 


قأهدة بياثات خط 

6 ,5خ سطراللتدريب 
* 4105 سطرا للتطوير 
سطرا للتقييم 


-همههم- 


سات النظام المختصرة 


نظام هين من التعلم 
العميق وناذج ماركوف 
الخفية 

ناذج لغوية لأشهر 
الكلمات» وأجزاء 


الكلمات العربية 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


مرجع النظام التعرف | قاعدة البيانات المستعملة سهات النظام المختصرة 


عله الطلماك بين ه , 772 | قاعدة بيانات خط . التعلم العميق ونماذج 


1 95 ماوكو ف اللنفنة 
لاد اكلا 3 49 رة سطرا للتدريب ركوف احنفم 


النظام * 6 سطرا للتطوير 
6 وا سطرا للتقييم 


5 الملامح تضمنت العناصر 
الصورية الرمادية 

»«تحليل المكونات 
الرئيسية» (04)©) لتقليل 
عكود3 الملامح 

* إمكانية التأقلم على خط 
كاتب معين 

* نموذج لغوي ثلاثي 
بيانات التدريب ف قاعدة 
بيانات «خط)» 


ه- أبرز أوعية النشر في مجال التعرف الآلي على النصوص المكتوبة 

إن التعرف على النصوص المكتوبة -بها في ذلك التعرف على النص العربي- كما هو 
من فروع الذكاء الاصطناعيء فهو أحد تطبيقات مجال التعرف على الأنماط (5مع]]ة2 
0 ا لذاء فإن كثيرا من نشاطات المجال العلمية تقع ضمن اختصاصات 
الرابطة الدولية للتعرف على الأناط (مدعة2 101 مونأقنءودمة لهممتممعام]1 
ممنانتمعمءة2 أو (ط1]4 وهي رابطة دولية تجمع المنظيات العلمية والمهنية غير 
الربحية ذات العلاقة» وهى تعتمد منظمةً واحدةً فقط من كل دولة يشارك عبرها 
الأفراد المهتمون بأنشطتها. وفيها يلي ثبت بأبرز المؤتمرات والمجلات المتعلقة بالرابطة 
الاكورة ويقيزها حبك يكن طثر حوره الصلقة بالفغر ف صلل التصتوضن الخريية 
المكتوبة بخط اليد فيهاء نقسمها إلى مؤتمرات ومجلات علمية. 


-جهم- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الاك --__|سسيييبوىو,ى ااا 


١ه‏ أهم مؤتمرات المجال الدولية 

تنبع أهمية حضور المؤتمرات المتخصصة والنشر فيها من كونمها بيئة مكثفة لتلاقح 
الأفكار وفرص النقاش والتعرف على أحدث النشاطات وأنشط الباحثين في المجال. 
كما أنها قد تشكل مسارت نشر سريعة للأفكار الجديدة» حيث لا تحتاج لنفس درجة 
التمحيص والإثباتات التى تشترطها المجلات. لذاء فقد ارتأينا إثراء الباب بنبذ عن 
بعض أهم المؤتمرات التي قد تهتم بمناقشة القراءة الآلية. 


١ه‏ المؤتمر الدولي لحدود التعرف على خط اليد 

إن المؤتمر الدولي لحدود التعرف على خط اليد (ععمعععقم0ن) 21مه0نهممعمآ 
0ن تمع مع126] عسات لصدكط صا وتعنادممظ1 مه أو +101111) مؤتمر رئيبى لبحوث 
وتطبيقات التعرف على خط اليد يجمع خبراء من الأوساط الأكاديمية والفيناعة 
لعبادل اخيرات وتعريز البحث المشترك وتطويره. 

يوفر هذا المؤتمر ملتقى للباحثين في مجالات التعرف الفوري والمتراخي» وواجهات 
التعامل بالقلم» ومعالجة الناذج والاستبيانات آلياء ومكتبات الخط الرقمية» والوصول 
واستعادة مستندات الإنترنت. تتبنى الرابطة الدولية للتعرف على الأناط هذا المؤتمر 
برعاية لجنتها الفنية (أنظمة القراءة)» إذ تقام فعاليات المؤتمر مرة كل عامين (للأعوام 
الزوجية)» وقد كان آخر انعقاد له عام ٠١١1‏ في منطقة شلالات نياغارا بالولايات 
المتحدة الأمريكية» وسيكون انعقاده القادم عام 7٠١٠١‏ في دورتموندء ألمانيا -إن 
شاء الله-. يتم نشر البحوث المقبولة من قبل المؤتمر بواسطة معهد مهندسي الكهرباء 
والإلكترونيات (158:158115). 


"واه المؤتمر الدولي لتحليل الوثائق والتعرف عليها 


ربا تعد سلسلة المؤتمرات الدولية لتحليل الوثائق والتعرف عليها ([10]610261008 
0 تمع م126 له 2[(:515لك الاعطتناءه7آ1 زه ععمع تت كمه© أو جلخ٠طك]1)‏ الأنجح 


في المجال» إذ هي أكبر تجمع دولي ورئيس للباحثين والعلاء والممارسين في مجتمع تحليل 


دلام- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


يوفر هذا المؤتمر منصة بارزة لمناقشة وتشجيع وتبادل الآراء حول أحدث التطورات 
في تحليل المستندات وفهمها واسترجاعها وتقييمهاء حيث يشمل مصطلح «المستندات» 
عندهم أنواعا مختلفة من الوثائق: ابتداء من أوراق البردي التاريخية» ومرورا بالمستندات 
الورقية» إلى الصور الملتقطة بالكاميرا حتى المستندات الحديثة متعددة الوسائط. 

تمت المصادقة على هذا المؤتمر من قبل اللجنة التقنية العاشرة للرابطة الدولية للتعرف 
على الأناط 14212 (التعرف على الأشكال الرسومية) واللجنة التقنية الحادية عشرة 
(أنظمة القراءة)» وكان المؤتمر قد تأسس منذ ما يقرب من ثلاثة عقود وهو يقام حاليا 
مرة كل عامين. عقد مؤتمر 101041 الأخير عام 7١117‏ في كيوتو باليابان. وسيعقد 
القادم عام ٠١١4‏ في سيدني بأستراليا -إن شاء الله تعالى-. يتم نشر بحوث المؤتمر 
وإصداراتهم بواسطة معهد مهندسي الكهرباء والإلكترونيات (1811). 


١‏ وه ورشة العمل الدولية لأنظمة تحليل المستندات 

ورشة العمل الدولية لأنظمة تحليل المستندات (05 ممطىكاده1]؟ 21ممتممعم]1 
5 40215199 ]122061111610 أو (1245 بو 6 مهمة أيضا لبحوث التعرف على 
النصوص المكتوبة بخط اليد. تقام ورشات العمل هذه كل عامين» وقد عقدت آخرهن 
-حتى كتابة هذا الكتاب- عام 7١١14‏ في فيينا في النمساء وستعقد ورشة العمل التالية 
عام 5“ ' في ووهان في الصين -إن شاء الله-. 


5 و١‏ وه المؤتمر الدولي للتعرف على الأنماط 

المؤتمر الدولي للتعرف على الأنماط (متعئةط مه ععمعمع قم لقممتفقصعنم] 
ده نمعمء26 أو ج1251) من أقدم المؤتمرات المرعية من قبّل +1451 ومن أرسخها 
في مجال التعرف على الأنماط عموما. يرحب المؤتمر بالموضوعات المتعلقة بالتعرف على 
النصوص المكتوبة بخط اليد ضمن اهتاماته. ويعقد المؤتمر كل عامين. كان انعقاده 
الأخير (الرابع والعشرون) عام ٠١١1‏ في بكين بالصين» وسيعقد المؤتمر الدولي الخامس 
والعشرون-إن شاء الله- عام ٠١٠١‏ في ميلانو إيطاليا. 


-رهم- 
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5 ,ه الورشة الدولية لتحليل النصوص العربية ومشتقاتها والتعرّف الآلي عليها 

الورشة الدولية لتحليل النصوص العربية ومشتقاتها والتعرّف الآلي عليها 
(لتة 15أولإلهمخ أمتتهء5 اماع10 امه عتطوتخ زه ممطكاءه11 [همه ته متعامآ 
دمن تمع مع26 أو +5415 بوتقة سنوية حديثة -نسبيا- متخصصة في تحليل النصوص 
العربية ونصوص اللغات المشتقة من العربية والتعرّف الآلي عليها. 

تنعقد ورشة العمل الثالثة عام "١١94‏ بالتزامن مع انعقاد 1010415 للعام 5١1١4‏ 
في مدينة سيدني» أستراليا؛ وقد كانت ورشة العمل الثانية عام 7١١14‏ في مدينة لندن» 
المملكة المتحدة؛ والأولى (عام )٠ ١1‏ في نانسي» فرنسا. 


وإضافة للمؤتمرات وورشات العمل المذكورة» تنعقد مؤتمرات أخرى ربا تكون 
ذات صلة ببعض مواضيع التعرف الآلي على الكتابة العربية» مثل المؤتمر الدولي للتعرف 
على الأناط وذكاء الآلة (مهتمعمع86] عوط مه ععمعع كمه 0021نم معام[ 
ععمعع ن1اعاهآ عسمنطعة]38 ممه أو 1 والمؤتمر الدولي لتحليل ومعالجة الصور 
(عسزووععءعمء لصة كذونزلهمة عع فصآ ده ععصع ع كمه لهدم تأ سعاص1 أو طحكك]). 
والمؤتمر الدولي لتحليل الصور والأناط الحاسوبية (ع6م6 مع كد00 021متأقصمعامآ1 
5 للتة 11023865آ 04 215515 مل ناعأ ناه 2ه أو لذن ) وحلقات العمل 
الدولية المشتركة مع 1821 حول التقنيات الإحصائية للتعرف على الأنماط (14212 
ماع 11 دعتاوتصطعع]' 512656021 ده 5ممطككه11 200221متعام[ا أاصتمل 
0خ نصع ه260 أو 521) وكذلك التعرف على الأنماط الميكلية والنحوية ( 581ناأء0ا5 
دمتاتمع م16 سعئدط عنتأعمام زد لمدأو (5521. ويمكن الاطلاع على قائمة 
المؤتمرات المعتمدة من +421 1ني صفحتهم على الشبكة العنكبوتية. 


أهم المجلات العلمية المحكمة التي تصلح لنشر المقالات ني المجال 
نلقي فيا يل بعض الضوء على بعض المجلات البارزة التي يتم فيها نشر البحوث 
المتعلقة بالتعرف على النصوص المكتوبة بخط اليد باللغة العربية: 


04م - 
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١"و,ه‏ المجلة الدولية لتحليل والتعرف على المستندات 

تركز المجلة الدولية لتحليل والتعرف على المستندات (10111221 10161021610281 عط1' 
)نمع معع 1 سه 4213:515 ادع دسناء 120 ده أو +111241) على نشر المقالات العلمية 
المحكمة المتخصصة في تحليل الوثائق والتعرف عليها. يتضمن ذلك المساهمات التى 
تتناول التعرف على المحارف والأرقام والنصوص والخطوط والرسومات والصور 
والكتابة اليدوية والتوقيعات؛ بالإضافة إلى مجال تحليل هياكل الوثائق؛ كل ذلك 
بهدف فهم محتواها الدلالي آليا. تنشر البحوث المقبوولة في هذه المجلة بواسطة الناشر 
95 0111561 5. 


؟ و وه تداولات معهد مهندسي الكهرباء والإلكترونيات لتحليل الأنماط والذكاء الآلي 

لمعهد مهندمى الكهرباء والإلكترونيات الدوليى (158155) عدة «تداولات» 
)مط منها رسائل تحليل الأناط والذكاء الال (11005ع2 11305" 
ع5 111ء م1 عصنطاءعة]/8 لصة 213:515مث صع د مه أو 12413/11). تعد هذه البوتقة 
من أشهر المجلات وأجودها في المجال» وهي تنشر في جميع المجالات التقليدية لرؤية 
الحاسب وفهم الصورة؛ وكذلك المجالات التقليدية لتحليل الناذج والتعرف عليهاء 
ومجالات مختارة من ذكاء الآلة» مع التركيز على التعلم الآلي لتحليل الأنماط. كما يمكن 
أحيانا تغطية تقنيات البحث المرئى» وتحليل المستندات والخط اليدوي» وتحليل الصور 
الطةو قاين ليده وكيرها تسوار لاه ١‏ عددًا في السنة. 


*,” وه التعرف على الأنماط 

التعرف على الأنماط (00 انمع مع6 مع )اه أو 01) بوتقة مهمة أخرى في المجال. 
أنشئت المجلة منذ ما يقارب 0٠‏ عامّاء -أي في السنوات الأولى لتطور علوم الحاسب 
الآلي ثم توسعت بشكل أكبر. 

تقبل المجلة الأوراق التي تقدم مساهمات أصيلة في نظريات ومنهجيات وتطبيقات 
التعرف على الأناط في أي مجال» بشرط أن يتم شرح سياق العمل بشكل واضح 
وترسيخه في أدبيات التعرف على الأن|ط. تنشر المجلة ١١‏ عددا في العام 12 عددًا في 
السنة بواسطة 8.97 ععمعل5 رعااع815. 


0 0-- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل4هككك4 د ---_||سسييييىو وى ااا 


5 و7 وه رسائل التعرف على الأنماط 

مجلة «رسائل التعرف على الأناط) (5تعناعآ ده )تمع مء26 سرعائوط أو ب[8ط) 
لملحكّمة تنشر مقالات موجزة بوقت سريع (نسبيا) بتغطية واسعة لأدبيات التعرف على 
الأنناط (وخصوصا المواضيع التي تبتم بها كل من اللجان الفنية لمعهد الرابطة الدولية 
للتعرف على الأناط)» تقبل المجلة الأوراق البحثية النظرية والمنهجية والتجريبية 
والتطبيقية. معايير قبول المقالات تتركز في أصالة البحث وجودته ووضوح طرحه. يتم 
نشر المجلة شهريًا بواسطة /8.5 عمعمعككه5 رعاء815. 


5- الخاتمة 

قطعت القراءة الآلية أشواطا منذ ظهرت. وما زالت معالجحة الكتابة العربية تتطور 
في هذا المضمار مع أساليب تعلم الآلة الحديثة» خاصة ما لا يتطلب منها تقطيع الكلمات 
إلى حروفء كالتعرف الكلي والضمني في ناذج ماركوف الخفية والتعلم العميق. فصّل 
هذا الباب في شرح ومقارنة أحدث بحوث المجالء ثم متم بثبت لأهم مظان المراجع 
وأوعية النشر من مجحلات ومؤتمرات» نسأل الله تعالى أن ينفع به قارئه وكاتبيه وناشره. 


حن- 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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الباب الثاني 
التعرف الآلي على الكلام العربي المنطوق 
وتطبيقاته 2 القرآن الكريم 


د. أحمد حمدى أبو عبسة 


-ه/ا _- 


هذه الطبعة إهداء من المركز 
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لكلا - 
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التعرف الآلي على الكلام العربي المنطوق وتطبيقاته 

ل القرآن الكريم 

د. أحمد حمدي أبو عبسة(" 
ملخص 

يعتبر التعرف على الكلام العربي المنطوق من الأبحاث الحامة التي لها دور كبير في كثير 

من مجالات الحياة مثل التعليم والصحة والصناعة وغيرها من التطبيقات. في هذا البحث 
تم تطوير التعرف الآلي على الكلام العربي المنطوق باستخدام أنظمة الذكاء الاصطناعي 
وتطبيقه لخدمة القرآن الكريم. ني الطريقة التقليدية لمعالجة الكلام؛ يتم الاعتماد على 
تقسيم الجملة الصوتية إلى مجموعة ثابتة من الأطرء بين) في هذا البحث تم الاعتماد على 
المقاطع الصوتية والتي تعرف على أنها الجزء الأساسي الأصغر في اللغة والمكونة من 
مقاطع ساكنة ومقاطع متحركة. استعرضنا في هذا البحث أهم خوارزميات استخراج 
خصائص المقاطع الصوتية» والتي تعتبر الخطوة الأولى في تصنيف المقاطع الصوتية. ثم» 
لتحسين نتيجة التصنيف. قلصنا حجم مصفوفة خصائص المقاطع الصوتية باستخدام 
تقنية تحليل المكونات الأساسية. ا تم استخدام نظام التشجير التصنيفي المبني على 
قواعد التجويد» حيث يتم تصنيف المقاطع الصوتية إلى ثلاث مراحل: تصنيف نهاية 
المقطع الصوتي ساكن أم متحرك» وتصنيف الحرف الساكن من حيث التفخيم والغنة» 
وتحديد زمن الحرف المتحرك في المقطع الصوتي. من خلال تطبيق هذا البحثء وجدنا 
أن إدخال قواعد التجويد القرآنية مع أنظمة التعرف الآلي على الكلام لها دور مهم في 
تحسين دقة تصنيف البيانات القرانية. 


-١‏ د. أحمد حمدي أبو عبسة رئيس قسم هندسة البرمجيات في جامعة فلسطين. حصل د. أبو عبسة على درجة البكالوريوس 
في هندسة الاتصالات والتحكم من الجامعة الإسلامية بغزة وعلى درجة الماجستير في علوم الحاسب اللي من جامعة 
شهال فرجينيا ثم على ماجستير آخر في أنظمة الاتصالات من الجامعة الإسلامية بغزة. حصل على درجة الدكتوراة في 
معالجة الإشارة الرقمية من قسم الهندسة الكهربائية في جامعة الملك فهد للبترول والمعادن» وله العديد من الأبحاث 
والمشاريع في مجال معالجة الصوت والصورة بتقنيات الذكاء الاصطناعي. 


-/ا//لا ا 
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١‏ - مقدمة 
بدأ اهتمام خبراء الحاسب والباحثين في مجال التعرف الآلي على الكلام منذ أكثر 
من أربعة عقود. وذلك لكى يصل الإنسان إلى مرحلة تجعله قادرا على التخاطب 
مع الحاسب الآلي وإعطائه الأوامر بدون الحاجة إلى الكتابة تما من شأنه توفير الجهد 
والوقت وإمكانية التفاعل مع الآلة بشكل طبيعي أكثر والتي تؤدي إلى استخدامها في 

مجالاات تطبيقية متعددة. 

ومع تطور التقنيات التكنولوجية في العصر الحديث؛ اتجه العالم إلى استخدام مفهوم 
الذكاء الاصطناعي (ع26معؤنلاءأه] 12[1عقناتة أو 1ة) وتعلم الآلة (عمتطعة/1 
8 يني مجالات متعددة والتي من ضمنها التعرف الال على الكلام المنطوق 
باللغة العربية» وكذلك مجالات التعرف على أحكام التجويد في تلاوة القرآن الكريم. 

يعرف مصطلح الذكاء الاصطناعي على أنه قدرة الآلة على محاكاة العقل البشري 
والتعلم من التجارب السابقة. ومنذ التطوّر الذي شهده الحاسب الآلي في منتتصف 
القرن العشرينء تمكن العلماء من برمجة الحاسب الآلي وتطويره للقيام بمهام كثيرة 
ومعقدة تضاهى مستوى أداء الخبراء والمحترفين في مجحالات كالتشخيص الطبيء أو في 
خركاك البحعث أو فى تطيقات الدمرف غلل الضوت والكتابة البدوية وغير'ذللك91]. 

ويمكن تقسيم أهداف الذكاء الاصطناعي وتعلم الآلة إلى ثلاثة أقسام رئيسية على 

النحو التالي: 

.١‏ التصنيف (214100ع0135515): حيث تقوم الخوارزمية بالتعلم وذلك 
من خلال وجود مجموعة من الأصناف 125565© وكل صنف له 
خصائص 16801165 مشتركة» حيث يقوم المصنف بربط الخصائص بصنف 

”. الارتباط (2687655108): وهو أسلوب إحصائي يستخدم في قياس مدى 
العلاقة الدلالية بين متغيرين » بحيث يكون أحد المتغيرات (متغير تابع) والآخر 
(متغير مستقل أو مُفيِر) وهو المتسبب في تغير المتغير التابع» وقد يستعمل للتنبق 
بقيم المتغير التابع بناء على المستقل . 


-//ا- 
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13 التجميع (عصتتع أوينان ) : حيث تقوم الخوارزمية بتقسيم البيانات إلى مجموعات 
غير معروفة مسبقًا وكل مجموعة يتم التعامل معها على أنها صنف. 

يُعرّف التعرف التلقائي على الكلام (10 تمع مع] اعععم5 ع1أه مام انتث ]كم 
بأنه عملية تحويل الموجات الصوتية (الإشارات الصوتية للكلام) إلى كلمات أو وحدات 
لغوية 700267265 [71]. يظهر التعرف التلقائي على الكلام في العديد من المجالاات 
الصناعية والمدنية» بها في ذلك: التطبيقات التي تشجع الاستغناء عن احتياج الأيدي في 
التعامل معهاء والتفاعل مع الأجهزة الذكية» والترجمة الشفوية التلقائية» وأدوات دعم 
المعاقين سمعياء والإملاء التلقائي وغيرها من التطبيقات. 

وعند تطبيق نظام التعرف الآلي على الكلام الصوتي ني الحاسب الآلي» وجد أنه من 
السهل التعرف على الكلمات المنفردة» ولكن الأصعب هو التعرف على الكلام المستمر. 
وهذا كله يعتمد على عوامل من بينها اللغة المستهدفة وحجم وتنوع البيانات التي يقوم 
النظام بالتدرب عليهاء بالإضافة إلى طبيعة البيئة التي سسجل فيها الصوت وغير ذلك 
.]١117[‏ 

تعتمد الطريقة التقليدية لمعالجة الصوت على تقسيم الجملة الصوتية إلى مجموعة 
ثابتة من الأطر 838506 8:60 بحيث لا يزيد طول الإطار عن "١‏ ميليثانية وذلك لثبات 
خصائص الكلام الصوتي في هذه الفترة وعدم تغير خصائصه. ولكن هذه الطريقة قد 
لا تلائم الوضع الطبيعي للكلام الصوتي حيث أن الصوت البشري يصدر على هيئة 
مقاطع صوتية نهنا 4عدمع»56 ختلفة الأطوال لا أطر زمنية #82365 [0 ]. 

ره المقاطع الصوتية 5انطنا #4عصيعء5 على أنبها الجزء الأساسي الأصغر في اللغة 
والمكونة من مقاطع ساكنة ©) 0250815 0) ومقاطع متحركة 917) 1/077»15). وني 
اللغة االعربية يتم تقسيم وحدات الكلام إلى خمسة أنواع أساسية: حرف متحرك 0597 مثل 
1 حرف تمدود 097907 مثل (ما) ١‏ مقطع من متحرك فساكن :0970 مثل (مَل) » 
مقطع من تمدود فساكن 017170 مثل (مال)» ومتحرك فساكنين 017060 مثل (عَضْر). 
وبالتاليي فإن كل مقطع صوتي 5687362410116 في اللغة ستكون عبارة عن صنف (01355) 
وسيكون دور المصنف 013551661 التعرف على هذه المقاطع الصوتية من مجموعة كبيرة 
من عدد الأصناف 6185565 الموجودة في اللغة في وقت واحد , وهذا الأمر يعتبر صعبًا 


-1/4ا- 
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من الناحية العملية خاصةً عندما يكون عدد الأصناف كبيرًا والتشابه بينهم أيضا كبيرًا 
[1]. 


ف نظام تلاوة القرآن الكريم» يبلغ عدد جميع المقاطع الصوتية 115هنا 4عتمعء5 في 
الجزء الثلاثين من القرآن الكريم 57٠١‏ مقطعا صوتيا تقريباء ىا يبلغ إجمالي عدد 
أصناف هذه المقاطع الصوتية 8٠١‏ صنفا مختلفا تقريبا [14]. وبالتالي يصعب تصنيف 
هذا العدد الكبير من الأصناف باستخدام الخنوارزميات التقليدية؛ لذلكء فإننا نقترح 
في هذا البحث اتباع تقنية من تقنيات الذكاء الاصطناعي تسمى «التصنيف الشجري 
ال هرمي ) لدم اخوع6 012551 عع لدع تطع وض 111 . حيث يتم تجميع عدد كبير من 
الفئات في مجموعات فرعية قبل تصنيفها نهائيا [؟]. 

يشكل نظام التصنيف الحرمي هيكلًا يشبه الشجرة» حيث يمكن عبور العديد من 
المسارات من الجذر وصولَا إلى الأطراف (الأوراق) على مبدأ «فرق واغز» «1217106 
121 2800 حيث يتم تقسيم المشكلة الكبيرة بشكل متكرر إلى مشاكل أصغر 
وأسهل يمكن دمج حلوها لإيجاد حل للمشكلة الشاملة [51]4]. 

يتميز نظام التصنيف الهرمي عن المصنفات التقليدية بتقليل عدد الأصناف إلى 
أصناف أساسية والتي بدورها تقوم بالاستغناء عن الحسابات غير الضرورية. ىا 
يظهر التصنيف الهرمي مرونة في اختيار مجموعات فرعية مختلفة للفصول حسب قواعد 
للافقال يون الرائعل التملفة فى القسجره بالافنافة إلى إمكافة إجراء مقاعناة بون دقة 
التعرف على الصنف في أحد فروع الشجرة وكفاءة الفترة الزمنية للحصول على النتيجة. 

أما عيوب تصنيف التسلسل الحرمي فمنها أن أي خطأ في نظام التعرف على أفرع 
الأشجار الرئيسية في المراحل الأولى تُوَرَث وتُتّقل إلى المراحل الفرعية. وهنا تتجى 
إشكالية المفاضلة بين الدقة والكفاءة» حيث يصعب تحسين كل من الدقة والكفاءة معا. 
علاوة على ذلك» فثمة صعوبات في تحديد القواعد وعدد المراحل في الشجرة الأمثل في 
التطبيق» وهذا بدوره يؤثر على نتيجة الأداء باستخدام التصنيف الهرمي []1/1]. 

في هذا البحث نقوم بعرض نظام مقترح لتصنيف الكلمات القرآنية باستخدام 
أساليب وتقنيات المصنفات التقليدية والمصنف المهرمي. سيتم تقسيم البحث إلى 


-ة/ ب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك د --__|||سسسيييبىو وى ااا 


ستة وحدات على النحو التالى: الوحدة الثانية عبارة عن وصف بنية نظام التعرف 
على الكلمات القرآنية. وفي الوحدة الثالثة يتم توضيح كيفية استخراج الخصائلص 
للصوت (8:]36005 عتدطدع1) وفي الوحدة الرابعة نبيين كيفية تقليل حجم مصفوفة 
الخصائص المستخرجة 10150625100 228111 ممتاعه عد عختطوء*]1 باستخدام تقنية 
تحليل المكونات الأساسية (خن)) 2217515ى أاعدهم جهن عاماعصترط. وفي الوحدة 
الخامسة شرح أشهر المصنفات التقليدية والتي يتم استخدامها لمعالجة الصوت في 
القرآن الكريم. وفي الوحدة السادسة شرح نظام تصنيف التسلسل الهرمي وتطبيقه على 
الوحدات الكلامية في القرآن الكريم. 


"- بنية نظام التعرف الآلي على الوحدات الكلامية في القران الكريم 
في هذا البحث سنقوم بالاعتماد على المقاطع الصوتية 15هنا 4معدمعء5 في القرآن 
الكريم عوضا عن الإطارات الثابتة 5 11601. يوضح الشكل ١‏ الخنطوات 
الرئيسية لبنية نظام التعرف الآلي وفيه الخطوات التالية: 
.١‏ الحصول على المقاطع الصوتية الخاصة بالقرآن الكريم. 
؟. استخراج الخصائص المتعلقة بالمقاطع الصوتية القرآنية. 
"'. تقليل أبعاد متجه المخصائص 102عنالءظ1 08 أفمعصن»آ جماعع/؟ عتتطدء 1 
5. استخدام تقنية تصنيف التشجير الحرمي (1566 91عتطعمة»111 (1110 
110 لتقليل عدد الأصناف إلى أصناف رئيسية. 
أنواع: 
مصنف بايز 833/65 2131376 »]7١1[‏ ومصنف الشبكة العصبية متعددة الطبقات 
(18115) ممنامءءنءط 1ه:9ز134014-18 [4]. ومصنف الجار الأقرب 2656هه11->1 
#وطاع ع1 (160117) [١٠]ء‏ ومصنف آلة متجه الدعم عمتراعة]/7 7ماء6؟ زوم مند5 
.]١١ 1 6172/0‏ 


-/ا١-‎ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


وسنقوم الآن بشرح تفصيلٍ لكل خطوة من الخطوات الموجودة في شكل .١‏ 


شكل :)١(‏ مخطط منهجية البحث في استخدام الذكاء الاصطناعي للتعرف على مقاطع القرآن الكريم 


١‏ الحصول على المقاطع الصوتية الخاصة بالقرآن الكريم 

مدخلات النظام المقترح عبارة عن مقاطع صوتية خاصة بالقرآن الكريم حصلنا 
عليها من قاعدة بيانات مدينة الملك عبدالعزيز للعلوم والتقنية للجزء الثلاثين من 
القرآن الكريم [15» وبلغ إجمالي عدد وحدات المقاطع الصوتية فيها ما يقارب 47٠١‏ 
مقطعا صونيا. 


؟ , ؟ استخراج الخصائص المتعلقة بالمقاطع الصوتية القرآنية 

استخراج الخصائص للمقاطع الصوتية مرحلة مهمة جدا في التعرف على 
الكلام. ويتمثل التحدي والصعوبة في كيفية استخراج خصائص قوية تمكن المصنف 
من التعرف على المقطع الصوتي وتحديد الصنف الذي ينتمي له هذا المقطع. ولاستخراج 
الخصائص من المقاطع الصوتية نقوم في البداية بتقسيم المقطع الصوت المدخل إلى إطارات 
69 بطول نموذجي 81 يتراوح من 11١‏ إلى ١77١‏ عينة لكل إطارء والتي تقدر 
من ١5‏ إلى ٠١‏ ملل ثانية» والتي تحافظ على ثبات خاصية الصوت في هذه الفترة الزمنية. 
لقد قامت دراسات سابقة كثيرة لتحديد الخوارزميات التي تقوم باستخراج الخصائلص 
من الصوت وفي هذا البحث سيتم التطرق إلى أهم هذه الخصائص. 


0١‏ خاصية الطاقة الصوتية 

تعتبر خاصية الطاقة الصوتية سمة ممتازة خاصة للتمييز بين المقاطع الساكنة 
(أتقدهكهمه) والمقاطع المتحركة (701615)» نظرًا لأنها تكون عادة ذات قيمة عالية 
في المقاطع المتحركة وقيم منخفضة في لمقاطع الساكنة. ولاستخراج خاصية الطاقة من 
المقطع الصوقي نقوم في البداية بتحويل المقطع الصو من مستمر 00218110115 إلى 


--5؟:'/ ب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
1112222211ظكخ1ة2ة© ١١١‏ 


متقطع 61 عن طريق تقطيع المقطع الصوتي إلى عينات 531020165 بفرق زمني 
ثابت ومن ثم يتم تطبيق المعادلة التالية :]١71‏ 


2000 ا ا ا كر ار 

حيث تمثل ,1 الطاقة الكلية للمقطع الصوتي 1 و تمثل (12): عينة 5 (ع1مصدة) 
في المقطع الصوتي1 و21 هو العدد الكلى للعينات (53850165) في المقطع الصوي. ومثال 
على ذلك فإن قيمة الطاقة في الآية #كلا سيعلمون* تظهر بلون أحمر في الشكل ”7. 
حر (للاشظ أن قييية الخرف الميحرك 23 ) أكدرمن ادرف الساكن ( ل): 


١ 


فؤن ل يَعْ | سََ | لا كّ 

الشكل (3): قيمة الطاقة للمقاطع الصوتية في آية #كلا سيعلمون» [9] 

05 خاصية حدة الصوت (طء)زط) 

تُعرف «حدة الصوت» على أنبا خاصية إدراكية تسمح بترتيب الأصوات حسب 
سلم مرتبط بالتردد» أي حسب عدد تكرار الاهتزازات (الذبذبات) هيرتز في الثانية 
للطبقات الصوتية أثناء التتحدث .]١5[‏ حيث يتم استخدام هذه الخاصية لمعرفة التردد 
الأساسي للمقطع الصوتي بناءً على الارتفاع والانخفاض في نغمة الصوت. 

هناك طرق مختلفة يمكن استخدامها لتقدير درجة الصوت من إشارة الكلام . سنشرح 
فبها يل طريقة «تقنية الارتباط التلقائي) عنالو1ضطاءء1 0001112105]نالى بين كل إطار 


والإطار الآخر من خلال استخدام المعادلة التالية: 


فم ممم مم ممم ممم ممعم م لم0 إل ع 170) مومع رطفاح - )8 


مما 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


حيث أن بآآ هو طول الإطار» (111) هو إطار الإشارة» عا عامل الإزاحة» و12)1 
هي دالة الارتباط التتقريبي التلقائي. 


"0١‏ خاصية ترددات صفة صوت الكلام ونع دع ناوء :11 اممصسنده"1 


تُعرّف خاصية ترددات صفة صوت الكلام على أنها ترددات الرنين والاهتزاز في 
الأحبال الصوتية أثناء النطق وتكون ظاهرة بشكل كبير في الحروف المجهورة (حروف 
كلمة قطب جد) أكثر من الحروف المهموسة (مثل حرف الحاء والهاء) .]١9[‏ 
ويمكن تمثيل هذه الترددات عن طريق حساب القيم العنلمىى للترددات 
6500125 لع معناوع11 ع1" 02 وعلوء2 من خلال تقنية الترميز التوقعى اللمخطى 
(20]) عل00 علاناء تلط مهعم 11 والتي تمثل على النحو التالي: ١11‏ ] : 3 
إفرة ل ل ل 

حيث (5)11 هى العينة المتوقعة عند الوقت 65» والمتغير م عبارة عن عدد العينات 
السابقة للوقت 2ه و بز هي معاملات 1:50 . 


:و١‏ ,” خصائص معاملات تردد ميل «تتناتتاومء0) تإعمعسوء 3161-1 

تعتبر تقنية معاملات تردد ميل (211005) من أكثر المخصائص استخداما للتعرف 
على الكلام. حيث أن الفكرة وراء معالحة :)”2/1 هي مقاربة الطريقة التي يسمع بها 
البشر الأصوات. حيثتركز الأذن البشرية عند الاستماع على الترددات المنخفضة. وهذا 
ما تحاوله 2/1100 من خلال تكبير مدى هذه الترددات باستخدام اللوغاريتات. يبدأ 
استخراج 215060 لكل إطار في المقطع الصوتي والذي يتراوح من 55١‏ إلى ١7١‏ عينة 
لكل إطارء والتي تقدر من ١5‏ إلى ١‏ مللي ثانية .]١5[‏ لتحويل الترددات الخطية إلى 


مفباس ميل ذكرة ق المغادلة إلعالية: 
)0 او و ود 1231 حم 
0 7 
حيث 1 قيمة التردد في هرتز. لتوضيح خطوات عمل 11100 موضحة في 
الشكل 8. 


-5م/- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


م11 
لصو رم 181 50 1/1 
)2 


4 


ملفلدت ؟جذا اام الحعقية 


الشكل (7): (أ) خوارزمية 211706 (ب) مرشح ميل 

065” تحو يل المويجات المنفصلة (0171) تدم كقصةت] أعاءعه'8؟ ماعن ولط 

يعتبر تحويل المويجات المنفصلة من المخصائص المميزة في تمثيل الإشارة في كل 
من مجال الزمن والتردد 00208312 لإءمعناوع11 320 عدنة1. حيث هذا المجالان هما 
التمثيلان المشهوران للإشارات» حيث يبرز كل منهما جانبا من خصائص الإشارة. 
إن الفكرة ة الرئيسية من 101871 هو تقسيم نطاق إشارة تردد المقطع الصوتي وترتيبها 
من الأقل إلى الإعلى بشكل متعاقب كما هو موضح في الشكل 4. حيث ر.ى!؟ (العقدة 
الجذرية لشجرة نطاق الترددات في المقطع الصوتي) تمثل تردد الإشارة الأصلية. ومن 
ثم يتم تقسيم نطاق التردد إلى قسمين بحيث ن, !5 تمثل النصف العلوي من نطاق تردد 
عدد المستويات المطلوبة. 


الشكل (5): المستويات الثلاثة لتحلل نطاقات التردد للمويجات 


-/6- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


وح تقليل أبعاد متحه الخصائص 01 كمع دسأنا “تماعء17؟ عنتبطوء"1 

إن استخدام الخصائص التي تم الحديث عنها في الفقرة السابقة يعطي 
نتائج جيدة ولكن ليست ممتازة وذلك بسبب احتمالية وجود بيانات كثيرة مكررة أو 
ليست ذات أهمية في التمييز بين الأصناف مما قد يؤدي إلى تعقد اعملية التصنيف. 
ولكي نقوم بتحسين هذه النتائج يتم استخدام تقنية تحليل المكونات الأساسية 
(4ن)8) 217515ث أاعدهم دهن ء1مأعصتءط لتقليص بيانات الخصائص واختصارهاء 
حيث تقوم بتحويل العدد الكبير من المتغيرات المترابطة ضمنا -ولو بشكل جزئي- إلى 
مجموعة أصغر من المتحولات المستقلة التخيلية» وهي تدعى عادة بالمكونات الرئيسية 
وتحسب أساسا من المتغيرات الأصلية بسب ومقادير ايد أو تنقص بحسب دور 
وتأثير كل منهاء لتصف أكبر قدر ممكن من البيانات الموجودة في خصائص الأصناف. 

إن الفكرة الأساسية في تحليل المكونات الرئيسية .804 هو تقليل حجم مصفوفة 
استخراج المخصائص إلى أكبر قدر ممكن والتي تسهم في التمييزيين الأصناف» وذلك من 
خلال عمل محاور 2 تخيلية متعامدة والتي تحسب من خلال مجموع الخصائص المستخرجة 
للمقاطع الصوتية الحقيقية لكن بأوزان متفاوتة تعكس دور كل منها وأهميته في التفريق 
ما بين الأصناف. تعمل خطوات تنفيذ الخوارزمية على حصر أكبر قدر ممكن من 
التباينات ضمن توليفة الخاصية التخيلية الأولى والتى عادة ما يطلق عليها تسمية المكون 
الأساسي الأول 61 ك] رض بحبيات قبية مؤوية ذه الخاصية السخيلية الت شور 
إلى الحصّة الكليّة من التباينات التي تم إلتقاطها والتعبير عنها في هذه الخاصية التخيلية. 
ثم بعد ذلك يأتي الدور في تكوين المكون الأساسي الثاني 702 والذي سيقوم بدوره 
بمحاولة التعبير عن أكبر قدر ممكن من التباينات المتبقية والتي لم يستطع 201 التعبير 
عنهاء ويستمر الأمر بالنسبة لكل من 803 و04 وصولا إلى العدد الكلي للخصائص 
التي تم استخراجها للمقاطع الصوتية 

بهذه التقنية نستطيع التمبيز بين الخصائص التي لا تسهم في التفريق ما بين الأصناف 
المختلفة في مجموعة البيانات ويكون لما أوزان صغيرة تقترب من الصفرء وبين الخصائص 
التي لها دورا هاما في التفريق ما بين الأصناف حيث يكون لتلك الصفات أوزان ذات 
مقادير كبيرة تقتربفي قيمتها المطلقة من الواحد الصحيح .]7١[‏ 


ةب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك 4 ةث د --__||سسيييىو وى ااا 


ولحساب 504 من الناحية الرياضية نقوم في البداية بتحليل القيمة الذاتية 
65 لصفوفة التباين التقر يبي وعصقتتة001 لعتلقستاوة. وهذا الأمر يتم 
من خلال إيجاد الوسط الحسابي لمصفوفة البيانات الخاصة بكل نوع من أنواع المقاطع 
الصوتية. ويمكن إيجاد مصفوفة التباين التقريبى من خلال العلاقة التالية: 


حيث 2 هي مصفوفة الخصائص المستخرجة من جميع المقاطع الصوتية في قاعدة 
البيانات والتي أبعادها ه ءا 0 حيث أن 22 هي عدد الخصائص الكلية التي تم 
استخدامهاء و2 هو عدد الملاحظات 00861378]1005 والتي تعني هنا جميع المقاطع 
الصوتية» والمتغير بو5 عبارة عن مصفوفة مربعة متياثلة أبعادها 20:0 بحيث أن قطر 
المصفوفة 5# عبارة عن قيم التباينات التقديرية بين المتغيرات. للحصول على تحويل 
04 نقوم بتطبيق المعادلة التالية: 


حيث لآ عبارة عن تمثيل ]5 بناء على أساس المصفوفة الجديدة 8, حيث أن 2 عبارة 
عن مصفوفة تحول 5 إلى نظام الإحداثيات التخيلية الجديدة وتكون فيها البيانات مرتبة 
من الأكبر إلى الأصغر. ولإيجاد مصفوفة تقدير التباينات بالنسبة للمصفوفة لآ يتم 
احتساءها من خلال المعادلات التالية: 
00 
الاح ح برق 
5 1 
---- 


1 
ام ابربرم - - 
11 


1 
امبر )م - 


-/اع/م - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


كما أن مصفوفة تقدير التباينات 5 يمكن تحليلها باستخدام تحليل القيم الذاتية على 


حيث أن (1 عبارة عن مصفوفة قطرية تكون فيها البيانات مرتبة حسب القيم الذاتية 
من الأكبر إلى الأصغر. والمصفوفة [1] عبارة عن المتجهات الذاتية 18605601015© حيث 
أن كل عمود في المصفوفة عبارة متجه ذاتي والتي تتميز بأنه عندما يتم إجراء تحويل 
خطي على هذه المتجهات لا يتغير اتجاهها. وب! أن المصفوفة 5 متماثلة فإن 13 ل]-5ل] 
وبالتالي يمكن كتابة ,5 على الشكل التالي: 


وبالعودة إلى ,5» نفترض أن ”زا ح م فإن ,و تكون على الشكل التالي: 
نا (اناطنا) أن - د كان ا “برك ح رى 


(10)+ه 2 حبري د (آامم)ن (اوم) - 


يمكننا أن نرى أنه عندما يتم اختيار مصفوفة التحول على أساس ؟[ا - م 
7نا > 8» فإن ناتج الخصائص المتحولة (العناصر الموجودة في المصفوفة لا) تصبح 
غير مهمة با أن مصفوفة التغاير في النتائج قطرية. إن هذه الطريقة أدت إلى عمل ترتيب 
القيم الذاتية والمتجهات الذاتية حسب الأهمية وبالتالي يمكن تقليل أبعاد المصفوفة إلى 
2 حيث أن 4 عبارة عدد الصفوف المطلوبة من المصفوفة الكلية. وعادة في الأبحاث 
يكون اختيار حجم المصفوفة بحيث يكون مجموع التباينات على الأقل ٠١‏ من مجموع 
التباينات الكلية. 

ولتوضيح أهمية وقوة 04» نوضح في الشكل ه مخطط التشتت ]10م 5080167 
(مخطط يستخدم بيانياً لتقديم وعرض العلاقة بين متغيرين) لكل من ا حروف الساكنة 
315 والحروف المتحركة 70177615 للمقاطع الصوتية بعد تطبيق نظام التحويل 
ه0ط. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لي٠‏ ا -__|سسيييبىو,ى ااا 


> 10 
د ِ 0 

3 - 6 
5 ّ 

1 1 ا 

5 

21011 مات 06 اعنم مماهعم 
3 3 .4 عهاء «» َه وأأ.» 


الشكل (5): مخطط التشتت للحروف الساكنة والمتحركة بعد تقليل أبعاد الخصائص باستخدام تحويل 04 . 


في الشكل 5 يوضح الرسم البياني لكل من الحروف الساكنة والحروف المتحركة بناء 
على دالة التوزيع الاحتّ الي 1(17 على شكل توزيع جاوس 081155131015111011100. حيث 
نلاحظ أيضا أن صنف الحروف الساكنة منفصلة تماما عن صنف الحروف المتحركة وهذا 
بدوره يؤدي إلى الحصول على نتائج ممتازة للتصنيف بين الأصناف. 


2 


الجملة الأولى الجملة الثانية الجملة الثالثة 
الشكل (5): الرسم البياني لدالة توزيع الاحتمالات على شكل جاوس بعد تطبيق إسقاط 2©04. 


5 و" التصنيف الحرمى 165) 01255152 لمعتطء ه1116 

يعتبر تصميم هيكل شجر ة التصنيف الهرمي (ممتوء6 1551© ادعتطعمتد 111 أو 
110]) من الطرق المهمة في التصنيف وذلك من خلال البحث عن الشجرة المناسبة 
والخصائص المناسبة للمجموعات الفرعية حتى يتم التعرف على الفروع في كل 
طبقة . إن أبسط طريقة هي تقسيم المشكلة إلى مشكلات فرعية لا تحتوي على عناصر 
مشتركة» وتسمى أيضًا «الانقسام الصعب» ]١9[‏ .ويمكن استخدام هذه الطريقة في 
القرآن الكريم بحيث يعم تكيف القاط العوئية عل شكل عرمي 11106 كانهو 
موضح في الشكل ا 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


تعتمد بنية ©1117 عل المعرفة المسبقة كيفية قراءة المقاطع الصوتية بناءً 
على قواعد التجويد المستخدمة في تلاوة القرآن الكريم . في بداية التصنيف الهرمي في 
الطبقة الأولى يتم التمييز في جذر الشجرة بين المقاطع الصوتية من نوع 0597© أو ©0576 
وذلك عن طريق أخذ آخر ثلاث إطارات 18:85265 من المقطع الصوتي ونقوم باستخدام 
خاصية الطاقة 63618 للتعرف هل خهاية المقطع هل هو حرف ساكن أم متحرك. 

في الطبقة الثانية يتم تصنيف كل فرع بناء على معيارين رئيسين: المعيار الأول هل 
الحرف الساكن مفخم أم لاء والمعيار الثاني هل الحرف الساكن فيه غنة أم لا. بناء على 
هاذين المعيارين فلقد تم تجزئة الفرع الأول من الشجرة 7© إلى أربعة أجزاء: الجزء 
الأول حرف ساكن مفخم بغنة (مثل كلمة «قتل»»» والجزء الثاني ساكن مفخم بدون 
غنة (مثال ذلك كلمة «طبع»». والجزء الثالث ساكن غير مفخم بغنة (مثال ذلك 
كلمة «كنتم»»» والجزء الرابع ساكن غير مفخم بدون غنة (مثال ذلك كلمة «سَأل2). أما 
في الطبقة الثالثة في هذا الفرع فكان المعيار الرئيسي كم زمن الحرف المتحرك» حيث في 
القرآن الكريم يكون إما حركة أو حركتين أو أربع أو ست حركات بناء على قواعد 
التجويد. بناء على معيار زمن الحرف المتحرك فسيكون إما حركة واحدة )١(‏ (مثال 
ذلك الفتحة)» أو حركتين (972) (مثال ذلك المد بالألف) . وبنفس هذه المعايير في 
الفرع الأول من الشجرة الرئيسية قمنا بتطبيقها على الفرع الثاني من الشجرة 
الرئيسية .0170 حيث تم تقسيم 09770 كذلك إلى حرف ساكن مفخم بغنة (مثال 
ذلك «من قال» 3 وحرف ساكن مفخم بدون غنة (مثال ذلك كلمة «قال»)» وحرف 
ساكن غير مفخم بغنة (مثال على ذلك كلمة «أنتم»)» وحرف ساكن غير مفخم بدون 
غنة (مثال ذلك كلمة «قيل») . ثم» ينقسم كل فرع إلى أربع أجزاء النوع الأول متحرك 
قصير (97) (مثال على ذلك)» حرف ممدود (972) (على سبيل المثال] )» حرف ممدود 
بزمن أربع حركات (4؟) (على سبيل المثال سائل)؛ وحرف ممدود بزمن ست حركات 
(5) (مثال على ذلك سيعلمونعند الوقوف عليها يكون مد عارض للسكون بمقدار 
5 حركات) . نلاحظ في الشكل أن الفرع 774 و6١‏ ليست مدرجة في فرع 077. حيث 
هذا النوع 97/4» يحدث عندما يتبع الحرف المتحرك حرف همزة (ء) وهذا لا يكون إلا إذا 
كان المقطع من نوع 09770. كذلك الفرع من نوع 176 يحدث عندما يكون بعد الحرف 
المتحرك حرفا ساكنا عندما يتوقف القارئ عن قراءة الآية. بناء على هذه الأنواع يكون 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لللتك ا 


لكل مقطع صوتي نوع واحد فقط من هذا الأفرع وبالتالي يسهل عملية التصنيف. 

بناء على ما تم شرحه في التصنيف الحرمي» فمن الواضح بأن 5110لا ثلاث طبقات: 
الطبقة الأولى لدينا فئتين رئيسيتين 0578© و 05709 في الطبقة الثانية لديناأربع تصنيفات 
تحت كل فرع: مفخم بغنة» مفخم بدون غنة» غير مفخم بغنة» و غير مفخم بدون 
غنة. أما في الطبقة الثالثة» لدينا الفئات الفرعية 7 و 772 تحت فرع مقاطع 097 والفئات 
الفرعية 77 و772 و7/4 و76 تحت فرع 07708. وبالتالي يبلغ إجمالي عدد التفريعات 77 
تفريعة أي أنه تم تقليص عدد الأصناف للمقاطع الصوتية من ٠٠١‏ إلى ١١‏ صنفا. 


امتقطم الوق 
خين 


افنآ معو 5 


الشكل /: شجرة تصنيف المقاطع الصوتية الخاصة بالقرآن الكريم 


- خوار زميات التصنيف 601255152063082 

#هدف عمليات التصنيف (ضمن بيئة تعلم الآلة المراقب (1560كلءمناك 
8 لتصنيف بيانات التدريب ضمن فئات مختلفة حسب خواصها المشتركة 
وها عدة خوارزميات . هذا» وتعتمد عملية التصنيف على الناذج (8100615) التي يتم 
بناؤها أثناء عملية التصنيف والمرتبطة بنوع المصنف (:01285166) المستخدم .]7١[‏ 
وفيهما يل نستعرض بعض المصنفات التي تمت المقارنة معها في هذا البحث: 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


22156 182765 مصنف بايز‎ ”.١ 

يستند هذا المصنف إلى نظرية بايز الاحتمالية (تتاعةمعط] *883/65) القائمة على مبدأً 
الاحتمال الشرطي الذي يقوم بحساب احتمال وقوع أحد الأحداث الاحتمالية بناء على 
وقوع حدث مستقل آخر أو أكثر وفق المعادلة التالية: 
2010 (خاطه:<2 / (8 لطة كاامء2 - رخ معتكلع 8)طمرط 


حيث: 

رك معماع 2206)8: احتمال وقوع الحدث 8 بناء على وقوع الحدث لم - وهو 
الاحتمال المطلوب 

و(8 ل0مة ث)طه:2: احتمال وقوع الحدثين لط و مه أو ما يدعى (56ل#اكللةم) 

و(ى)طمءظ: احتمال وقوع الحدث كنأو ما يدعى (دماءعاعطزة) . 


تقوم هذه الخوارزمية أغلب الأحيان بربط الحدث بعدة أحداث مستقلة. 

يمتاز هذا التصنيف بالسرعة في بناء النماذج ك| أنه يمتاز بأنه قابل للتوسع (80218516) 
مع ازدياد بيانات التدريب وبتنفيذ عملية بناء النماذج بشكل متوازي (031811611260) 
ويمكن استخدامه لتصنيف بيانات ثنائية الفئات (1855© '610813) أو متعددة الفئات 


(1255كء تااتتح) . 


"؟,” مصنف الشبكة العصبية متعددة الطبقات(011.2) 02 امءعمء2 نع جهآ1- 1سا 

يعتمد هذا المصنف على خوارزميات الشبكة العصبية (1181اء]7 19[1ع16تىظ 
067011 ذات طبقة أو أكثر بين الدخل والخرج بحيث ترتبط كل عقدة (71006) 
في كل طبقة بجميع العقد الأخرى في باقي الطبقات, وباستثناء طبقة الدخل فإن جميع 
العقد هى عصبونات اصطناعية (100ناء21 191 1116ىل).ءىا هو موضح في الشكل /. 

عند تدريب البيانات أو اجراء الاختبار عليها يتم إدخال البيانات عبر طبقة الإدخال 
(33:67]آ خنامطم1) وتتم معالجتها ضمن الطبقات المخفية (1.23/615 1110062) وعرضها 
بالنهاية عبر طبقات ا خرج (6/ق3آ 11اأت01) . 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الاك --__|سسيييبوىو,ى ااا 


الشكل (2)8: أنواع الطبقات الثلاث لتصنيف 211:5. 


تتألف كل طبقة من واحدة أو أكثر من العصبونات الاصطناعية المتوازية» لكل 
عصبون كما يظهر في الشكل 4 عدد ١1‏ من المدخلات ذات الوزن 117 لكل منها بالإضافة 
لمخرج واحد فقط. يقوم كل عصبون بدمج المدخلات مختلفة الأوزان من خلال جمعهم 
سوية وبالاستناد إلى حد العتبة 1865014 والذي يرمز له عادة بالحرف الإغريقي 0 


1 ناما 
إنوؤئن1+0 لأملرواة 5 © 2 أنام صا 


9 لامطمعرط7 
الشكل (4): بنية العصبون الاصطناعي 

لشرح آلية عمل هذه الخوارزمية بصورة مبسطة لابد من تعريف المتغيرات التالية: 

المدخلات (0< ».... يد 6 ذات الأوزان الل ل 

الدالة 1ا دالة تعبر عن احتمالية التنشيط (2016011821 15724100اع3) . 

دالة حد العتبة 0 (10مطوعغطا). 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


دالة الخرج 7[ (أنامكنا0) . 
دالة التنشيط 1 (102أع طن حامتكه كتاعة) 


يعرف دالة احتمالية التنشيط بالمعادلة: 


المعادلة النهائية لتابع الخرج تظهر في المعادلة: 
)١:(‏ «السود نر نسم وين لاحك ييا 8 حتوينة ( ادنر 
يتم استخدام هذا التصنيف بشكل واسع في عدة مجالات؛ كالتعرف الآلي على 
الكلام (متاتصمعمعع1 طعععم5).» والتعرف الآلي على الصور (16008011100 ع12088) 
إضافة لبرامج الترحمة الآلية (م260أقصهع عصنطءعهم . 


*",” مصنف الجار الأقر ب “تمططئوء11 أوعنروء ك1 

مصنف الجحار الأقر ب (1وططعنء1! أوعهء12-11 أو 161111) تبدف للتنبؤ بالصنف 
عن طريق مقارنة السجلات الشبيهة بالسجل المراد التنبؤ بقيمته وتقدير القيمة المجهولة 
لهذا السجل بناء على مقدار تلك السجلات. يعتمد عمل هذه الخوارزمية بشكل أساسي 
على وحدة القياس (7261:16). يمثل الرمز (16) عدد الحالات الأكثر تشايها مع الحالة 
المراد التنبؤ بقيمتهاء. الشكل )٠١(‏ يوضح آلية عمل هذه الخوارزمية حيث تظهر 
النقطة المجاورة الأقرب لإحدى نقاط البيانات المراد تصنيفها (©3) ضمن الحد الفاصل 
(المسافة) (1©) بين| يظهر ضمن الحد الفاصل (2©) النقطتين المجاورتين للنقطة (©3) 
وضمن الحد الفاصل (03) النقاط الثلاثة المجاورة للنقطة ©3). 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكش د --__||سسسيييبىو وى ااا 


< > 00-7 


م | ّ 
الشكل :)٠١(‏ توزع البيانات ضمن المصنف /1000. 

تنتمى النقطة (©7) في حالة (01) تنتمى إلى الصف السالبء وني حالة (03©) إلى 
الصف 55 وذلك حسب نظام العضويت للأغلبية (عتطعحاء5 عصنام/؟ 7ه ز112). 
أما في حالة (03) فإنه يتم اختيار الصف بناء على وحدة القياس (506]10) ليتم تصنيف 
النقطة على أساسه. يتم اختيار العدد (16) بشكل مناسب مع عدد البيانات بحيث يتم 
التغلب على التراكب الناتج عن عملية التصنيف والتي تزداد مع ازدياد شذوذ البيانات 
وعدم تناسقها. 


” مصنف آلة منحه الدعم (51781) عستطع ه81 رماعع؟ مسرم 

يعتبر هذا المصنف أحد أقوى المصنفات التقليدية بامتلاكه آلية عمل تدمج كلاً 
من خوارزمية الشبكات العصبونية مع خوارزمية الشعاع الأسامي (88515 120181) 
لإيجاد أفضل سطح فاصل بين بيانات التدريب. يمتاز هذا المصنف بالمرونة» قابلية 
التوسع والسرعة في الآداء ما يعطيه الأفضلية في معالجة مسائل التعرف الآلي المتنوعة 
وعلوم معلوماتية الأحياء (0:28605/هذه81). كا يتميز هذا المصنف بقدرته على 
معاللجة معطيات ذات عدد كبير من المعايير مقارنة بعدد سجلات البيانات المتواجدة. 

تعمل آلية تصنيف المعطيات وفق حالتين: 


تصنيف خطي: وذلك باختيار أفضل خط مستقيم أو مستوي يستطيع فصل 
البيانات ويكون أقرب ما يمكن لجميع هذه البيانات وهنا يمكن تمييز حالتين: 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ييا 


مجموعة البيانات ثنائية الفئة (01355 (ق810831) ذات بعدين (2-(10)» يبين 
الشكل )١١(‏ مستقيم الحالة الأمثل (605ن516 حسدمنام0) التي تقسم 
متعددة الفئات (1355© 1/]011) متعددة الأبعاد (12<2), 

؟ تصنيف غير خطي: وذلك باختيار أفضل سطح أو منحني يستطيع فصل 
البيانات ويكون أقرب ما يمكن لجميع هذه البيانات وهنا يمكن تمييز حالتين 
حسب فئات وأبعاد البيانات في) إذا كانت مؤلفة من ثنائية الفئة فقط (10-2) 
كما يظهر في الشكل (45-ب) أو متعددة الفئات (19<2). 


4 رب 
الشكل( :)١١‏ توضيح أسطح فصل البيانات لمصنف 57711. 


5 - التجارب والنتائج 

بناء على ما تم ذكره في الفقرات السابقة» سنقوم في هذه الوحدة بتطبيق هذه المفاهيم 
من الناحية العملية وعرض نتائج البحث. كا قلنا سابقا بأنه تم الاعتماد على قاعدة 
بيانات مدينة الملك عبد العزيز للعلوم والتقنية والحصول المتكونة من 57٠١‏ مقطعا 
صوتيا [0]. حيث أن هذه المقاطع الصوتية تم تصنيفها على صيغة 077 وصيغة 0572© 
بناء على مبداً التصنيف الشجري الهرمي المبني على قواعد التجويد والتي تحتوي على 
صنفا رئيسيا. في بداية الأمر تم استخراج 7١‏ خاصية لكل مقطع صوتي على 
النحو التالي: 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك د --__|||سسسيييبىو وى ااا 


خوارزمية الطاقة وتم استخراج خاصية الطاقة لكل مقطع صوتي. 
. خوارزمية درجة حدة الصوت وتم استخراج أربع خصائص وهي معدل 
وتشتت وأعلى وأقل قيمة درجة حدة صوت المقطع الصوتي. 
خوارزمية ترددات صفة صوت الكلام وتم استخراج ثلاث خصائص وهي 
معدل وتشتت وأعلى قيمة ترددات صفة صوت الكلام للمقطع الصوتي. 
0 خوارزمية معاملات تردد ميل 211100 وتم استخراج عشرين خاصية عن 
طريق إيجاد المعدل والتشتت لأول عشر معاملات الخوارزمية للمقطع الصوتي. 
٠‏ خوارزمية تحويل المويجات المنفصلة للطبقات السبعة حيث تم استخراج 7506 
بعد استخراج هذه الخصائص للمقاطع الصوتية أصبح حجم مصفوفة استخراج 
الخصائص 470078١‏ عنصرا. ثم بعد ذلك تم استخدام تقنية تحليل المكونات 
الأساسية 204 بحيث تم تقليل حجم المصفوفة إلى 57٠0*60٠‏ والتي تحتوي على 
مجموع نسبة التشتت ما يقارب /4١‏ من نسبة التشتت للخصائص الحقيقية. ثم بعد 
على قواعد تجويد القرآن الكريم لتصنيفها إلى 077 و0770 ى] تم توضيحه سابقا. ثم 
بعد ذلك تم استخدام المصنفات التقليدية (718 .51711 .17121 .811.5) حيث تم 
تدريب هذه المصنفات على //٠١‏ من البيانات وعمل فحص /7١‏ المتبقية من البيانات. 
أعطى المصنف 57/81 أفضل النتائج حيث كانت نتيجة دقة البيانات ما يقارب 5// 
للمقاطع الصوتية من نوع 077 و40/ للمقاطع الصوتية من نوع 0170©. 
إن هذه النتيجة لو قارنها بدون استخدام التصنيف الهرمي لحصلنا على نتيجة 544/. 
تما يعني أنه باستخدام التصنيف الشجري المبني على قواعد التجديد يتم تحسين النتائج 
ننشية :5 17 


-/ا)و- 
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ه- الخاتمة 

في هذا البحث تم عمل دراسة عن التعرف الآلي على الكلام العربي المنطوق 
وتطبيقاته في القرآن الكريم باستخدام أنظمة الذكاء الاصطناعي. حيث تم في البداية 
الحصول على المقاطع الصوتية القرآنية من خلال قاعدة بيانات مدينة الملك عبد العزيز 
ومن ثم تم استخراج الخصائص ذه المقاطع الصوتية باستخدام خوارزميات مشهورة 
في مجال معالجة الصوت. تبين أن حجم مصفوفة استخراج الخصائص هذه المقاطع 
الصوتية كبيرة وبالتالي تم استخدام تقنية تحليل المكونات الأسلسية 504 لتقليل حجم 
المصفوفة واستخدام خصائص تخيلية تقوم بإعطاء الأوزان الأعلى للخصائص ال حقيقية 
الأهم وأوزان قليلة للخصائص الحقيقية الغير مهمة والتي بدورها أسهمت بشكل كبير 
في تحسين النتائج. ثم بعد ذلك تم استخدام خاصية التصنيف الحرمي بناء على قواعد 
التجويد القرآنية والتي بدورها قللت عدد الأصناف من 8٠٠١‏ صنف إلى 71 صنف. 
وفي النهاية تم عرض أشهر المصنفات التي تسخدم في معالجة الصوت بشكل عام وفي 
القرآن بشكل خاص. 
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توا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


وات 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
اليا ا ا ا -__سسييبىو,ى ااا 


الباب الثالث 


تحليل الآراء العربية إلكترونيا 


د. أمجد يوسف أبو جبارة 


هات 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها تجارياً 


ع8 ٠ا-‏ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الاك --__|سسيييبوىو,ى ااا 


تحليل الآراء العربية إلكترونياً 


د.أيجد يوسف أبو جبارة 


المالخص 

يتناول هذا الباب استعراضاً استقصائياً لموضوع التحليل الآلي للآراء وتطبيقاته 
في اللغة العربية. يقدم الباب تعريفا تفصيليا بالملوضوع يتضمن شرحا للمهام المطلوبة 
لتميكن الحاسب الآلي من فهم الآراء» واستعراضاً للمقاربات البحثية المختلفة لتنفيذ 
كل من هذه المهام مع مقارنتها والمفاضلة بينها كلما دعت الحاجة. كما يتضمن الباب 
عرضاً لأهم الخوارزميات التي اقترحها الباحثون للتنقيب عن الآراء وتصنيفها مع 
تسليط الضوء على ما استهدف اللغة العربية منها. يتطرق الباب كذلك إلى بعض 
التطبيقات الرئيسية لتحليل الآراء كتصنيف مراجعات المنتجات في المتاجر الإلكترونية» 
والتنقيب عن الآراء في الشبكات الاجتاعية. ويختتم الباب باستعراضٍ موجز لبعض 
الموارد المفيدة في المجال من مجموعات نصية» ومعاجم آراءء ومكتبات برمجية. 


تحليل المشاعر والآراء 

تحليل المشاعر 4128310515 561116121 (ويعرف 2 ب»التنقيب عن الآراء») 
وسنطة «دمنصام0) هو أحد يجالات لسانيات الحاسب الآلي 0012001 
65 المتفرعة عن مجال الذكاء اللاصطناعى12111186206 411166191 » وهو 
واحد من أنشط فروع هذه العلوم بحثا را لأهمية تطبيقاته ووفرة المحتوى النصى 
كميات مهولة من النصوص المحملة بآراء أصحابها تجاه كل أنواع القضايا التي يمكن 
تخيلها. 

تقوم خوارزميات تحليل المشاعر بتحليل النص اللغوي بهدف الكشف عن المشاعر 
التي يعبر عنها الكلام تجاه موضوع النصء وبين) تركز أغلبية الخوارزميات على تصنيف 
المشاعر إلى إيجابية أو سلبية أو محايدة» فإن بعض الخوارزميات تذهب إلى تصانيف أشمل 
يتضمن حالات شعورية أكثر تفصيلاً كالسعادة والحماسة والغضب والاشمتزاز» إلخ. 


١٠6م‎ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


ولعل أهم العوامل التي ساعدت في نشأة وتطور هذا العلم هو تطبيقاته المهمة في 
محالات التسويق» وخدمة العملاء» وتطوير المتتجات» وقياس الرأي العام والعلوم 
السياسية» والدراسات الاجتاعية» وغيرها الكثير. حتى أصبح تحليل الآراء خدمة 
مدفوعة تقدمها شركات متخصصة وتستفيد منها جهات عديدة (من شركات ومنظيات 
وحكومات) معنية برصد وقياس آراء زبائنها أو مستخدمي منتجاتها أو المستفيدين من 


خدماتها. 
نبذة تاريخية 


تعود أصول مجال تحليل الآراء والمشاعر إلى علم الفلسفة» وتستند الكثير من 
الدراسات الأولى في الموضوع إلى أفكار فريدريك نيتشه ونظرياته حول تعدد الآراء 
ىر كلاعء مرورء م التي تتلخص في أن الحقيقة ممكن أن تكون ذات أوجه متعددة» وأن 
كثير من القضايا التي يتجادل حوها الناس ليس لا حقيقة مطلقة بالضرورة [11]11] 
[7]. 

الفيلسوف الأمريكي ريتشارد سكاشت درس أفكار نيتشه. وأعاد صياغتها بحيث 
فرق بين نوعين من الأفكار: الأفكار المرتبطة بحقائقء7ناء[0 , والأفكار التى تعبر 
عن رأي 5060176 [5 ]. وتعتبر هذه الدراسات هى الأرضية الت الكت علييا 
الكثير من الدراسات الحديثة في مجال تحليل الآراء. ْ ْ 

ولما كان الكلام المكتوب والمنطوق هو الوسيلة الرئيسية للتعبير عن الأفكار 
ومشاركتها مع الآخرين» فقد انصب كثير من اهتتام الباحثين في هذا المجال على 
دراسة العلاقة بين طبيعة الكلام المستخدم في الحديث والآراء التي يحملها الملتحدث 
[1]115]» حتى ظهر مجال في علم اللغويات متخصص بدراسة اللغويات النفسية 
10 [8]. فعلى سبيل المثال درست الباحثة آن بانفيلد 8826610 دم 
الجمل التي تعبر عن الحالة النفسية للمتحدث من حيث كونه يسرد حقائق موضوعية 
أو يعبر عن آراءء وعلاقة ذلك باختيار الآلفاظ والتعبيرات وتركيب الجمل [19]. ىا 
ظهر مجالٌ أكثر تخصصاً يتعلق باللغويات الاجتماعية 1585عهذ906101 »]١١[‏ ويبتم 
بدراسة الطرق المختلفة التي يستخدمها الناس للتعبير عن أفكارهم في أوضاع التفاعل 
الاجتماعي المختلفة كحال الاتفاق أو الإعجاب أو المعارضة إلخ. 


5 وا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ب 


وقد مثلت كل هذه الدراسات المختلفة أساساً بنى عليه الباحثون المهتمون بمجال 
معالحة اللغات مقارباتهم 5ط المختلفة لبناء أنظمة حاسوبية قادرة على تحليل 
الآراء التي يتم التعبير عنها بطريق الكلام. ومن الرواد في هذا المجال الباحثة جينيس 
ويب ©77171656 13237:06 التى استفادت من دراسة بانفيلد سابقة الذكر لتطوير خوارزمية 
قادرة على اكتشاف أننماط الكلام التي تظهر بشكل متكرر مع الحالات النفسية وفي 
الحالات الاجتاعية المختلفة .]١١[‏ ومن أمثلة الدراسات الريادية المهمة في هذا 
المجال كذلك ما قام به الباحث ستيفن جرين من تطوير خوارزميات قادرة على كشف 
أنماط الكلام التي تعبر عن ميول وتحيزات ضمنية لا يتم التعبير عنها بشكل صريح 
في الكلام» وقد تضمن بحثه إجراء دراسات لغوية اجتماعية واقعية متعددة لتدعيم 
استنتاجاته واختبار دقة خوارزميته .]١7[‏ 

ومن أوائل التطبيقات العملية الحديثة التي انصب عليها تركيز باحثي لغويات 
الحاسب الآلى فيا يتعلق بتحليل الآراء: أنظمة إجابة الأسغلة ع تع لومخ مه اوءعن1 © 
3 هر وكانت بؤرة التركيز فيها هي تطوير هذه الأنظمة بحيث تصبح- إلى جانب 
قدرتها على إجابة الأسئلة المرتبطة بحقائق- قادرة كذلك على إجابة أسئلة الرأي التى 
تحتمل أكثر من إجابة. 

وكان من أهم الجهود الريادية في هذا المجال ما قامت به الباحثة جينيس ويب عام 
7 عنلما نظمت ورشة عمل استمرت شهرين جعت فيها عددا من الباحثين 
لدراسة كيفية استخدام الناس للغة للتعبير عن الآراء. وخرجت هذه الورشة 
بمجموعةٍ من التعريفات المحددة التي تميز الكلام الحمال للرأي عن الحقائق» ومعايير 
تصنيف الكلام الحمال للرأي إلى كلام إيجابي أو سلبي أو محايد. كا قام المشاركون في 
هذه الورشة بتطبيق هذه التعريفات والمعايير على مدونة نصية 001105 167 مأخوذة 
من مقالات إخبارية لتشكل هذه المجموعة ما يعرف الآن ب 712704 والتى أصبحت 
أحد أهم المجموعات النصية التي يستخدمها باحثو لغويات الحاسب الآلي لتدريب 
واختبار خوارزميات تحليل الآراء .]١1[‏ 


ومع ظهور وانتشار مواقع التجارة الإلكترونية وإقبال الناس المتزايد على شراء 
احتياجاتهم عبر الإنترنت» ومع ما تقدمه هذه المواقع في الغالب للمشترين من إمكانية 


لاوا - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


التعليق على المتتجات التي قاموا بشرائها وتبيان ما أعجبهم ومالم يعجبهم فيهاء انصب 
اهتمام باحثي تحليل المشاعر والآراء على دراسة هذه التعليقات واقتراح خوارزميات 
تسهل على الباعة والمصنعين معرفة مقدار إعجاب الناس بمنتجاتهم مع تلخيص 
الجوانب التي لاقت استحسان المشترين والجوانب التي طاها نقدهم ]١5[ ]١5[‏ 
[5 ]1لا .]١‏ 


ثم مع ظهور وانتشار مواقع الإعلام الاجتماعي والشبكات الاجتاعية» توفرت 
ميادين واسعة لمستخدمي الإنترنت للتعبير عن آرائهم تجاه كل القضاياء بل والخوض في 
جدالات حول مواضيع الاختلاف سواءً كانت هذه المواضيع تقنية أو فكرية أو سياسية 
3 . استقطبت هذه الوفرة المهولة في النصوص الحَّالة للآراء جهوداً بحثيةَ كثيرةً 
انصب جل اهتمامها على محاولة فهم اللغة التي يستخدمها الناس للتعبير عن آرائهم عبر 
وسائل التواصل الاجتماعيء والمفردات والتعبيرات التي يستعملها الناس في كلامهم 
حال الاتفاق أو الاختلاف» وكيف يمكن استخدام تقنيات معالجة اللغات لتحليل 
النصوص الحالة للآراء بدف تصنيفها آليا وكشف علاقات الاتفاق والاختلاف بين 
أصحاها .]5١1]751]19[‏ 

ومن تطبيقات تحليل الآراء الأخرى التي لاقت اهتاماً متزايداً في السنوات الأخيرة 
دراسة طرائق التعبير عن الآراء في السياق الأكاديمي» وتحديدا عندما يشير الباحثون إلى 
أغ لواحن اتريق وخر ضيوق ا بالقل, اول العفو فهذا المجال تداك نقلة 
في معايير تقييم المساهمات العلمية للباحثين بحيث لا يتم الاكتفاء بتعداد الإشارات 
المرجعية التي يتلقاها العمل البحثي؛ بل يتم النظر أيضاً إلى طبيعة الرأي المصاحب 
للإشارة وهل هو رأي مؤيد أم معارض لا جاء به البحث المشار إليه 71 41]77[]7 ؟] 
[511176]. 


تحليل الآراء العربية 

جهود البحث في تحليل الآراء العربية جاءت متأخرة نوعاً ماء بعد أن وفر انتشار 
وسائل التواصل الاجتماعي وتعاظم أثرها عربيا وعالميا حافزا كبيرا لدى كثير من 
الباحثين من عرب وغيرهم للمباشرة البحث في هذا المجال. ركزت الجهود الأولى على 
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مواءمة المقاربات المستخدمة لتحليل الآراء في اللغة الإنجليزية واللغات الأخرى 
للغة العربية» وتضمن هذا بناء موارد لغوية تخدم تحليل الآراء العربية كمعاجم آراء 
ومدونات لغوية 0075018 مصنفة يدوياً ومكتبات برمجية لتحليل الآراء [71] [/؟] 
[ 1 "]. انتقلت الجهود البحثية في هذا المجال بعد ذلك إلى التعامل مع التحديات 
الخاصة باللغة العربية كتعدد اللهجات العربية »]77[]7571[1]7١[‏ ودراسة أثر المعالحة 
المسبقة للنص العربي (كالتحليل الصرفي والتجذير والتجذيع) على دقة تحليل الآراء. 

نُشرت العديد من الأبحاث الاستقصائية في السنوات الأخيرة حول تحليل الآراء في 
اللغة العربية ولخصت الجهود البحثية في المجال على اختلاف محاور تركيزها وتطبيقاتها 
والطرق التي استخدمتها والتحديات التي عالجتهاء وندعو القارئ المهتم إلى الرجوع 
إلى هذه الدراسات كقراءة مكملة لما يحتويه هذا الباب 51 ”] [75] [75] [/30”] [8"] 
.]5٠1]74[‏ 


المهام الرئيسية ني تحليل الآراء 

نستعرض في هذا القسم العمليات والمهام المختلفة التي تصدى لما الباحثون في مجال 
تحليل الآراء» ونكتفي هنا بتعريف هذه المهام والإشارة إلى أهم الأبحاث التي تصدت 
لكل منهاء الشرح الأكثر تفصيلاً لطرق إجراء هذه المهام سنتطرق إليه في القسم التالي. 


٠‏ تمييز الكلام الحمال للآراء 

وتعتبر هذه المهمة (ويشار إليها في الأبحاث عادة ب'تحليل موضوعية الكلام) 
3195 م أاناءء زط511) بمثابة المهمة الأساسية الأولى في معظم عمليات تحليل 
الآراء» وتستند الأبحاث الأولى فيها إلى الدراسات اللغوية النفسية والفلسفية 
والاجتاعية كما أشرنا آنفاً. 

الهمدف من هذه المهمة هو التمييز بين الكلام الذي ينقل حقائق والكلام الذي يعبر 
عن رأي؛ فمثلاً قول أحدهم: ١كشفت‏ شركة سامسونج النقاب عن هاتفها الجديد يوم 
الخميس الماضي» إن| ينقل خبراً يتعلق بهاتف سامسونج دون التعبير عن أي رأي أو أي 
مشاعر مرتبطة مبذا الحدث أو موجهة تجاه الحاتف الجديد. قارن هذا ب: «الحاتف الجديد 
الذي أعلنت عنه سامسونج رائع» وفيه الكثير من الخصائص المميزة»» فالكلام في هذه 
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الحالة يعبر عن رأي صاحبه المتحمس للهاتف الجديد وما به من خصائص يراها مميزة. 

وغالباً ما يجرى هذا النوع من التحليل على مستوى الجمل» حيث يتم تصنيف كل 
جملة في النص إلى جملة موضوعية عكناء»ء زط0أو جملة معبرة عن رأي عكتاءء زطنا5 اعتمادا 
على ما تحويه الجملة من ألفاظ .]571]51١[‏ فالجمل الحالة للرأي تتميز باحتواتها على 
صفات (إيجابية أو سلبية) مثل «رائع» و)المميزة» كما في المثال السابق» في حين أن الجمل 
الموضوعية تحتوي غالباً على أرقام أو تواريخ أو غيرها من التعبيرات التي يكثر اقترانها 
بنقل الحقائق أو توثيق الأحداث. 

وإذا لزم تصنيف موضوعية نص كامل فإن ذلك يتم بطريقة ة إحصائية في الغالب من 
خلال رصد موضوعية الحمل المكونة للنص» » فكلم| زادت نسبة الجمل الحىالة للرأي في ف 
النص» اعتبر النص في مجمله أكثر ميلاً نحو كونه نصاً معبراً عن رأي والعكس صحيح 

٠‏ تحديد قطبية الكلام 

بعد تحديد الكلام الحمال للرأي تأتي المهمة التالية وهي التعرف على نوعية المشاعر 
التى يعبر عنها النص. الغالبية الراجحة من الدراسات ركزت على تصنيف المشاعر إلى 
مشاعر سلبية ومشاعر إيجابية مع إمكانية التمبيز بين درجات مختلفة من قوة أو ضعف 
الإيجابية أو السلبية. ويطلق على الخاصية التي تصف الكلام من حيث كونه سلبياً أو 
إيجابياً في الأوساط البحثية ب «قطبية الكلام» 14ئة164201» وتعرف أيضاً ب»الانحياز 
المعنوي») 01121214101 511816. 

تطرقت أبحاث عب فص الكلام إلى دراسة القطبية على مستويات مختلفة ابتداءً 
من قطبية الكلمات وصولا إلى قطبية النصوص الكاملة. 

٠‏ تمييز قطبية الكلمات: 

وتبدف هذه العملية إلى تصنيف الكلمات الواردة في النص إلى كلمات إيجابية (مثل: 
جميل» حسن. رائع» كريم» إلخ) أو كلمات سلبية (مثل: سيء؛ رديء» هزيل» بخيل؛ 
إلخ) أو كليات محايدة (مثل: ذَهَبَ مَعء كتاب» شارع» إلخ). للوهلة الأولى قد تبدو 
هذه العملية سهلة وأن الكلمات السلبية والإيجابية يمكن حصرها في معجم حصراً 
يدوياً (وهو ما قام به العديد من الباحثين في مجال اللغويات النفسية والاجتماعية بالفعل 
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3 [5"1] [55] [45])» ولكن هذه العملية في الحقيقة تحيط بها تحديات متعددة 
تجعل المعاجم اليدوية غير قادرة على تلبية احتياجات معظم تطبيقات تحليل الآراء: 


فالعا البدويةاللالحامييا كرت الشيا نان عابدر اعم شضر كل الكدات 
التى تحمل دلائل قطبية» خاصة أن كثيرا من تطبيقات تحليل الآراء تجري على 
نصوص منشورة عل الإنترنت حيث تظهر مقردات جنديدة باستمرار للتعبير 
عن معاني سلبية أو إيجابية (مثل وصف الأفكار بأنها «داعشية» - وهو لفظ 
مستحدث لا تحويه معاجم القطبية»» ويغلب استعمال الكلام العامي» ويكثر 
استعال الاختصارات (مثل استعال 878 كاختصار ل 87686)» واستعمال 
الوجوه التعبيرية» وغيرها. 

كما أن معاجم القطبية متوفرة لعدد محدود من اللغات فقطء في حين أن عدد كبير 
من اللغات لا توجد لها معاجم قطبية على الإطلاق أو أن ما هو متوفر منها يعان 
من محدودية المحتوى وغياب الاهتام بتحديثه. 

كذلك توجد كلات كثيرة تحتمل معانٍ متعددة» ويختلف معناها بحسب 
السياق» وبناءً على المعنى المقصود قد تتنقل قطبيتها بين إيجابية وسلبية ومحايدة» 
فمثلاً كلمة «أسد») في معناها الغالب هي اسم حيوان مفترسء. ولكن في 
سياقات معينة تكون لا دلالة يجابية كقوهم بلاس ل يراد 
منه التعبير عن صفات الشجاعة والقوة. تتجنب المعاجم القطبية إدراج هذه 
الكليات لأن الغالب عليها هو المعنى المحايد في حين أن كثير من تطبيقات 
تحليل الآراء تحتاج إلى أن تكون قادرة على التعرف على المقصد القطبي هذه 
الكليمات. 

خيراًء تختلف الكلمات القطبية في مقدار قطبيتهاء فكلمة «ممتاز) -مثلاً- تتعبر 
قوى في دلالتها الإيجابية من كلمة مثل «جيد). مثل هذا التقدير لدرجة الإيجابية 
أو السلبية غير متاح في الغالبية العظمى من المعاجم القطبية» وما هو موجود 
منها يكتفي بتصنيف قطبية الكلمات إلى قوية وضعيفة فقط. 
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بسبب هذه التحديات ومحدودية المعاجم اليدوية انصب اهتمام كثير من الباحثين 
الأوائل في مجال تحليل الآراء على البناء الآلي للمعاجم أو الإثراء الآلي للمعاجم اليدوية 
الموجودة» واستخدم الباحثون طرقا متعددة لتحقيق هذا الهدف نستعرض بعضا منها 
في الفقرات التالية. 

استندت كثير من هذ الطرق إلى فرضية أن الكلمات التى تحمل دلالات قطبية 
منشابية تظهر غاباًفي مواضع متقارية» فمثلاًإذا كان هناك نص يمدي رأياً جه متيج 
جديدء وإذا كنا نعرف قطبية بعض الكلمات الواردة في هذا النص» فيمكن افتراض 
أن باقي الصفات الواردة في النص من الممكن أن تحمل قطبية مماثلة» وإذا أجرينا هذا 
الرصد للظهور المتزامن لكلمات معروفة القطبية مع بقية الكلمات على كمية ضخمة 
جداً من النصوص يصبح من الممكن رصد علاقات اقتران إحصائية تقود إلى تخمين 
قطبية الكلمات غير معروفة القطبية. فمثلاً الكللات التي تتكرر على مقربة من كلمات 
معروفة الإيجابية يمكن افتراض أنها إيجابية» والأمر كذلك مع الكلمات التي تتكرر مع 
كلمات سلبية» أما الكلمات التي ترد بنفس مقدار التكرار مع كلمات إيجابية وكلمات 
سلبية فيمكن افتراض أنها كلمات متعادلة القطبية [55 ] . 

حاولت مقاربات أخرى النظر إلى الطريقة التي ترتبط فيها الصفات التي تنجاور في 
اللصوص وتتصلها حرو ف حظت أ وتعروقةابعدراك أرما شاب وعاولات استساب 
القطبية للكليات مجهولة القطبية بمساعدة الكليات ذات القطبية المعروفة. فمثلاً إذا 
احتوى نص على شيء من قبيل: «جميل ورائع» وكانت قطبية ١جميل»‏ معروفة مسبقاً 
فإن حرف العطف «و) يوفر قرينة قوية بأن كلمة «رائع» تحمل نفس القطبية. أما إذا 
احتوى نص على تعبير مثل: «جميل لكنه مزعج»» وكانت قطبية «جميل» معروفة» فإن 
حرف الاستدراك «لكن» يمنح قرينة قوية بأن كلمة «مزعج) لا قطبية معاكسة [/41]. 

عمدت طرق أخرى إلى الاستفادة من شبكات الكلمات 716650115 171/010 وهى 
كركاف كرن كل قطهمومنافها غارع فى #لمةه وتفظ اعابت ينها بووايط 
65 مثل علاقات ترادف أو تضاد أو غيرها من العلاقات المعنوية 561028124612 
95 الطرق التي تعتمد على هذه الشبكات تستخدم خوارزميات التعلم 
الال شبه الموجه 163121528 561711-51106151560 للتعرف على قطبية الكلمات المختلفة 
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في الشبكة انطلاقاً من عدد قليل -نسبيا- من الكلمات معروفة القطبية يتم اختيارها 
يدوياً [54]. 

من هذه الخوارزميات ما يعتمد على التنقل العشوائي في الشبكة 11/011 داملصطةخ]1» 
ولتحديد قطبية كلمة ما باستخدام هذه الطريقة فإن عملية التنقل العشوائي تنطلق 
من تلك الكلمة وتستمر في التنقل العشوائي عبر الشبكة حتى تصل إلى كلمة معروفة 
القطبية» ويتم تكرار هذه العملية مرات كثيرة لكل كلمة» وفي النهاية يتم تعيين قطبية 
للكلمة بحسب القطبية التى غلبت على الكلمات ذات القطبية المعروفة التى توقفت 
عندها عملية التنقل في كل محاولة. أما في حال تعذر إيجاد أغلبية واضحة لإحدى 
القطبيتين فيتم اعتبار أن الكلمة ذات قطبية متعادلة [44]. 

حاولت مقاربات أخرى إثراء المعاجم القطبية للغات التي تعاني من فقر المعاجم 
وفقر الموارد النصية التي تتيح بناء معاجم آلية لها (كقلة المحتوى المكتوب بتلك اللغة 
عبر الإنترنت مثلا) من خلال الاستفادة من معاجم لغات أخرى تتميز بثراء معاجمهاء 
ومن هذه الطرق مثلاً ما يعمد إلى بناء شبكات كلمات متعددة اللغات [8ناعضنا :7/1111 
10565 من خلال استخدام القواميس وربط الكلمات بتر حماتها من اللغات 
المختلفة. يتبع ذلك استتخدام خوار زميات كالتي عرضناها في الفقرة الماضية لاستنتاج 
قطبية الكلمات غير معروفة القطبية في اللغات المختلفة انطلاقاً من بعض كلمات معروفة 
يتم اختيارها يدوياء كما هو مبين في شكل ١‏ [50]. 
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شكل ١‏ يوضح شبكتين 171/01011/61 للغتين مختلفتين» الأولى -يمين- تحتوي على كلمات معر وفة القطبية» 

والثانية -يسار- تخلو من هذه المعلومات ولكنها مرتبطة بالشبكة الأخرى من خلال ترجمة الكلمات 
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* التعرف على قطبية الجمل والفقرات 

الوذه اللي عدانا منها بج القور اشاب ترك وتران الطررة الكلمة يشكال جور 
معزول عن سياقها الذي وردت فيه. في هذا القسم سنتحدث عن مهمة أكثر تعقيداً 
وهي التي يؤخذ فيها السياق بعين الاعتبار» وهي خطوة مهمة لآن السياق له دور كبير 
في تحديد قطبية الكلمة» ونستعرض فيهما يلي بعض الحالات التي يؤثر فيها السياق على 
الكلمات مع ذكر أمثلة على كل منها. 

٠‏ بعض الكلمات تحتمل أكثر من معنى. فقد تستخدم الكلمة في سياق فتحمل 
معنىّ إيجابياً وقد تستخدم في سياقٍ آخر فتحمل معنىّ سلبياً أو تكون محايدة 
ومثال ذلك كلمة «أسد» كما أوردنا سابقاً. مثال آخر كلمة «عين»» فقد تأي 
بمعنىّ محايد ىا في: الاشتريت قطرة عينٍ لعلاج الاحمرار»» أو بمعنىّ يجاب 
عندما تستخدم استخداما مجازيا ى) في «ابني هو عيني ولا غنى لي عنه), أو 
بمعنىّ سلبي ى) في «كان عيئاً للأعداء» أي «جاسوسا». 

* إذا وردت الكلمة القطبية في سياق نفي فإن قطبيتها تنعكس. فمثلاً في جملة: 
«لا أحب الباذنجان» الأصل في كلمة «أحب» أنها موجبة القطبية» ولكن ورود 
حرف «9» في بداية الجملة» ووقوع كلمة «أحب») في نطاق نفيهاء قلب قطبيتها 
من موجبة إلى سالبة. 

٠‏ قد ترد الكلمة القطبية في سياق نفي ولكن لا يؤدي النفي إلى عكس قطبيتها 
بالضرورة» ولكن يؤدي إلى التقليل من قوة قطبيتها 0 لاع نامع 5 
لزاء فمثلاً في جملة «لا أحب الباذنجان كثيراً» برغم أن كلمة "أحب» وردت 
في سياق النفي, إلا أن تذييل الجملة باكثيراً» قد جعل المنفي هو كثرة المحبة 
وليس أصلها. 

* قد ترد الكلمات القطبية في سياق السخرية ويكون مقصد قائلها معاكساً 
لقطبيتها الظاهرة. فمثلاً قد يقول أحد للآخر «يا ذكي» في سياق من السخرية 
يكون مقصله فيه أن الموجه إليه الكلام قليل الذكاء وهو ما يعاكس ظاهر 
المعنى. ويعتبر التعامل مع حالات السخرية في الكلام من أصعب مشكلات 
تحليل الآراء» وذلك لأن تمييز الكلام الجاد من الكلام الساخر يحتاج في أغلب 
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الأحيان إلى معرفة الثقافة اللغوية السائدة بين المتحدثين» وهو ما يتجاوز كثيراً 


نطاق النص الذي يجري تحليله. 


للتعامل مع هذه التحديات التي تستوجب إدراك السياق حاولت بعض طرق تحليل 
الآراء استخدام بعض الخوارزميات المبنية على قواعد مصاغة يدوياًء مثلاً في حال ورود 
كلمة نفي في الجملة يتم عكس قطبية كل الكلمات القطبية الواردة في نفس الجملة وعلى 
بعد مسافة محددة من أداة النفي وهكذاء ولكن هذه الطرق تعاني من عدم مقدرتها على 
اكتشاف كل أنواع السياق المؤثرة في قطبية الكلام. ولذلك فإن الكثير من طرق تحليل 
الآراء قد اعتمدت على تقنيات تعلم الآلة 8 131126 سواءً الطرق التقليدية 
منها أو طرق التعلم العميق 163102128 مع126. في حالة طرق تعلم الآلة التقليدية 
ينصب جهد الباحثين على تعريف إشارات وخصائص 13001565 ممكن إيجادها في 
النص ويمكن أن يكون طا أثر في قطبية الكلام» ومن أمثلة هذه الخصائص ما يلٍ: 


الكلمات المجاورة (الكلمة السابقة والتالية مثلاً» للكلمات القطبية في الجملة. 
وجود أداة نفى في الجملة» والمسافة -مقاسة بالكلمات- بين أداة النفى والكلمات 
وجود كللمات تقو ية 10160518615 أو تضعيف 100172100615 مقترنة بالكلمة 
القطبية مثل: (بشدة»» «بقوة)» «(كشرا «جدااء «قليلاً»» إلخ. 

العلاقات الإعرابية بين الكلمات في الجملة» لاسيا بين الكلمة القطبية وغيرها 
من الكلمات كأدوات النفى أو كلمات التقوية والتضعيف وغيرها. 

احتواء الجملة على وجوه تعبيرية 8120606005» أو علامات ترقيم (مثل 
علامة تعجب أو علامة استفاهم). أو رموز تزينية» أو وسوم تصنيفية 
9 أو التطويل لبعض الحروف في بعض الكلات كما في 
العجي : » أو تكرار الحروف كم في «را||||ااااائع», إلخ. 


هذه الخصائص يتم تعريفها لكل جملة أو فقرة في النص» وعند توفر كمية كافية 
من الجمل أو الفقرات معروفة القطبية» يتم تدريب خوارزميات تعلم الآلة على هذه 
الأمثلة» حتى تصبح قادرة على تخمين قطبية أي جمل أو فقرات أخرى. 
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مؤخراً -ومع الوفرة الكبيرة للبينات المحملة بالآراء المنشورة على الإنترنت- 
شهدت تقنيات تحليل الآراء صعود الطرق المعتمدة على التعلم العميق» وفيها ينصرف 
تركيز الباحثين عن تعريف خصائص صريحة لاكتشاف القطبية في ضوء السياق إلى 
التركيز على بنية النموذج العميق ع17نماءه1116ع41 71001 الذي يراد تدريبه. وسوف 
نتحدث بقدر أكبر من التفصيل عن هذه الطرق لاحقاً في هذا الباب. 

٠‏ التعرف على مصدر الرأي 

كثير من تطبيقات تحليل الآراء تبتم بتمييز الآراء المنقولة عن آخرين. فمثلاً عند قول 
أحدهم: «صديقي يكره منتجات شركة آبل» ولكني أحبها» نجد أن التعبير السلبي 
«يكره» ليس مقترنا بالمتحدث صاحب النصء وإن) هو ينقل مشاعر مصدرها مختلف. 
ولذلك فإن طرق تحليل الرأي في مثل هذه التطبيقات تحتاج إلى ربط كل تعبير قطبي في 
النص بمصدره والتمييز بين كونه مقترناً بالكاتب أم بمصدر آخر. 

٠‏ التعرف على المستهدف بالرأي 

كثير من تطبيقات تحليل الآراء #بتم أيضاً برصد رأي صاحب النص تجاه منتج محدد 
أو خدمة محددة» ولذلك يلزم معرفة المستهدف بكل تعبير قطبي في النص. فمثلا إذا قال 
أحدهم: «أنا أحب هواتف آبل» ولكني أكره أجهزتها اللوحية»» تحتاج أكثر تطبيقات 
إلى القدرة على تميبز أن مشاعر المحبة موجهة للهواتفء بين| مشاعر الكره موجهة نحو 
اللوحيات وليسن العكس: 

كذلك فإن كثير من تطبيقات تحليل الآراء تتطرق إلى رصد رأي الناس في خدمات أو 
منتجات متعددة الجوانب». ومن الممكن أن يختلف تقييم الناس لكل من هذا الجوانب» 
فمثلاً عند قيام المستخدمين بتقديم تقييم نص لأحد المطاعم فإن هذا التقييم قد يتطرق 
إلى جودة الطعام» ترتيب ونظافة مكان الجلوسء لباقة النادل» الأسعار» إلخ. فمثلا في 
تعليق مثل: «الطعام لذيذ جداء وتعامل طاقم المطعم راق» ولكن الضوضاء في المكان 
شديدة والإضاءة ضعيفة» نجد خليطا من آراء إيجابية وسلبية. وتحتاج كثير من تطبيقات. 

ونظراً لأهمية هذا الربط بين الرأي والجانب المستهدف بالرأي لأكثر تطبيقات تحليل 
الآراء فقد ظهر مجال خاص يعرف ب»تحليل الآراء متعدد الجوانب.» 63860-]عءم5م 


15 الع اماع 5 . 
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وتعتمد الطرق التقليدية المهتمة بمعرفة مصدر ووجهة الرأي على تحليل العلاقات 
الإعرابية في الجملة بين الكلمات القطبية والكلمات الأخرى لاسي الجمل الاسمية 
69 5ئا810 والكيانات المسماة 165]نام8 4وتمول<. أما طرق التعلم العميق 
فتحاول كشف العلاقات الإعرابية بشكل ضمني من خلال بنية النموذج 7/0061 
عتناء ]1ع الذي يتم تدريبه دون أن يتم إجراء عملية الإعراب نفسها بالضرورة. 


" مهام متقدمة لتحليل المشاعر 

المهام التي تناولناها في الفقرات السابقة تعتبر مهام أساسية ولازمة للغالبية العظمى 
من تطبيقات تحليل الآراء. نتناول هنا على عجالة بعض المهام المتقدمة التي قد تحتاجها 
بعض تطبيقات تحليل الآراء. 

٠‏ تلخيص الآراء 

كما ذكرنا سابقاً فإن العديد من تطبيقات تحليل الآراء تتعامل مع حالات تتعدد فيها 
الجوانب التي يستهدفها الناس بآرائهم» مثل تعليق الناس على أحد المنتتجات كهاتف 
مثلاً فيستحسنون جودة الكاميرا مثلاً ولكنهم يتضجرون من قصر عمر البطارية أو 
يعجبهم الشكل الأنيق للهاتف ولكن يضايقهم تأخر استجابة شاشة اللمس وهكذا. 

في هذه التطبيقات لا يكفي وسم تعليق المستخدم بأنه إيجابي أو سلبي بمجمله بل 
يجب تفصيل الحوانب الإيجابية والجوانب السلبية من وجهة نظر كل مستخدم. 

تهدف مهمة تلخيص الآراء إلى تصنيف الآراء المختلفة للمستخدمين من حيث 
الجوانب التي استهدفتها آراؤهم» بحيث يتم وضع الآراء الخاصة بكل جانب في مجموعة 
واحدة ثم يتم تصنيفها إلى إيجابية وسلبية. ثم يتم تطبيق آليات تلخيص النصوص 166 
3 على مجموعة النصوص الخاصة بكل منهماء ويكون المخرج النهائي 
هذه العملية هو ملخص مفصل يعرض كل جانب على حدة وأهم الآراء الإيجابية 
والسلبية التي استهدفت كل جانب. 
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٠.‏ تتبع تطور الآراء 

يحاول الباحثون المهتمون بهذا النوع من تحليل الآراء دراسة الطبيعة الديناميكية 
للآراء وتتبع تطورها وتغيرها مع الوقت. ففي حالة تحليل آراء المستفيدين من خدمة ما 
-مثلاً-» قد يكون من المفيد تتبع التغير الذي يطرأ على آرائهم بعد إجراء أي تغييرات 
في الخدمة» وملاحظة كيف تميل الآراء نحو الإيجابية أو السلبية كردة فعل من طرف 
المستفيدين. 

كذلك في مجموعات النقاش عبر الشبكات الاجتاعية» تهتم العديد من الدراسات 
الاجتماعية برصد كيف يؤثر سير النقاش على آراء المشاركين فيه وإذا ما كان أحدهم 
سيغير رأيه مع مرور الوقتء وتأثير سير النقاش كذلك على الرأي المبدئي الذي يتبناه 


من ينخرط في النقاش متأخراً. 


٠‏ رصد انقسام مجموعات النقاش حول موضوع النقاش 

من مجالات الدراسة التي يعنى بها الباحثون في مجال تحليل الآراء دراسة انقسام 
المنخرطين في نقاشات جدلية حول موضوع النقاشء ودراسة اللغة التي يستخدمونها 
في التعبير عن انقسامهم. ويتم تطبيق هذه الدراسات غالباً على الحوارات التي تحوي 
العديد من منشورات الأخذ والرد بين المشاركين في النقاش كا في منتديات الحوار 
وغيرها من وسائل التواصل الاجتماعى؛ فيحاول الباحثون تحليل المنشورات التى 
يكتبها كل مشارك وتحديد ما إذا كانت تعبر عن اتفاق أو اختلاف مع رأي المنشور السابق 
الذي جاءت رداً عليه» فمثلاً إذا بدأ المشارك تعليقه على منشور سابق بقوله: «هذا رأي 
خاطئ" أو «أنا أختلف مع هذا الرأي» أو ما شابه ذلك تحاول هذه الخنوارزميات أن 
تستنج أن صاحب الرد وصاحب التعليق الأصلي على طرفي نقيض فيا يتعلق بموضوع 
النقاش. وتذهب الدراسات إلى أبعد من ذلك فهي تحاول كذلك أن ترصد مواطن 
الاتفاق والاختلاف بين المتحاوريين» فقد يختلف متحاورين حول أحد جوانب النقاش 
ولكن قد يختلفان في جانب آخر من مثل: «أتفق معك في كذاء ولكنى أخالفك الرأي 
في كذا». تحاول الأبحاث في هذه الحالة بناء («سجل انطباعات» 32 ناث لكل 
مستخدم تسجل فيه انطباعات المستخدم السلبية أو الإيجابية تجاه المستخدمين الآخرين 
وتجاه الجوانب المختلفة لموضوع النقاش. 
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تستند كثير من هذه الدراسات إلى نظريات في العلوم الاجتماعية كنظرية التوازن 
البنائي 1160157 ععمةلة8 21 تناع نماك والتي ترصد ظواهر اجتاعية متكررة تفسر 
انقسام الناس حول الآراء المختلفة مثل «صديق صديقي صديقي» واعدو عدوي 
صديقي)» وهكذا. 


٠‏ رصد التأثير على الآراء في المناظرات 

تحاول الدراسات المهتمة بهذا الجانب رصد عملية التأثير التي تجري في الحوارات 
التي تدور عبر منصات ال حوار الإلكتروني كالشبكات الاجتماعية وما شابههاء والتعرف 
على الأشخاص المؤثرين الذين يوجهون سير النقاش ويؤثرون في آراء غيرهم من 
المشاركين وربط هذا با لديم من قوة اجتماعية 207761 500131, وسلطة على الآخرين 
0117 نك 121ء50. 


ثمة فرع من تحليل الآراء ينجاوز تصنيف الآراء لسلبية وإيجابية ويقترح تصنيفات 
أكثر تفصيلاً تتضمن مشاعر مثل الغضب» والحزن» والملل» والسعادة» والحىاسة» إلخ. 
ولكن الدراسات في هذا الجانب ما زالت قليلة نسبياً نظراً لقلة البيانات المتاحة التى 


يتوفر فيها نصوص مكتوبة مقرونة بمشاعر تفصيلية. 


طرق تحليل الآراء 

في هذا الباب نستعرض المقاربات المختلفة التي استعملها باحثو تحليل الآراء لإجراء 
المهام التي عرضنا بعضا منها في الجزء السابق من هذا الباب. 

نبدأ بعرض عمليات المعالجة المسبقة 128ووع2060706 التي يلزم القيام بها قبل البدء 
بعمليات تحليل الآراء مع التركيز هنا على ما تحتاجه اللغة العربية. يتبع ذلك استعراض 
لثلاثة مدارس في تحليل الآراء مع تقديم أمثلة لكل منها وعقد المقارنات بينها كلما 


قضت الحاجة. 
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5 المعالجة المسبقة للنصوص 

هي خطوة مهمة يجب إجراؤها قبل البدء بتحليل الآراء» خاصةً عند التعامل مع 
اللغة العربية» وقد بينت الدراسات أن هذا النوع من المعالجة له أثر واضح في دقة 
عمليات تحليل الآراء التى تتبعها [51]. وتعود الأهمية الخاصة لإجراء هذه المعالحة 
لنصوص اللغة العربية لما تتميز به من ثراء المفردات» وكثرة أشكال الصرفء. وغياب 
التشكيل من معظم النصوص العربية المكتوبة مع ما يخلقه هذا من غموض لعاني بتعض 
الكلمات» وتعدد اللهجات العربية» وغيرها. وتتضمن عمليات المعالجة المطلوبة في 
اللغة العربية ما يل: 


. تقطيع الكلام (إلى كليات أو وحدات نصية) ه66 22نصعء101: 

وتسمى هذه العملية أيضا بالتحليل اللفظي 872217515 1.6121 ويقصد به تقطيع 
النص إلى وحدات 1014675 تتكون كل وحدة منها من أحرف أو أرقام أو رموز متصلة 
كالكلمات أو الأعداد أو علامات الترقيم» مع تحديد موضع بداية ونهاية كل وحدة. 


0 تسوية الكلام 0ك عتطرة تع مط‎ ٠ 

وتبدف إلى تنقية النص من الشوائب الكتابية كالرموز الزائدة وعلامات الترقيم 
غير الحامة لعملية المعالجة مثلاً والتأكد من توحيد الأناط المختلفة لكتابة الثبىء 
الواحد (مثل إثبات أو ترك رسم الهمزة في الألف المهموزة)» والتخلص من التطويل» 
والتخلص من الحروف المكررة كما في «راااائع». وإزالة التشكيل إذا كان غير لازما في 
عمليات المعالجة التالية أو غير متوفر بشكل شامل لكل النص المكتوب. 

وقد بينت بعض البحوث المتعلقة بمعالجة اللغة العربية أن إجراء عمليات التسوية 
على النصوص العربية له تأثير ملحوظ على جودة وكفاءة عمليات المعالجة اللاحقة 
للنص 071]. 


٠‏ التحليل الصر فق 5ن5 لوصح لدعاع10مطم:810 

وتهدف عملية التحليل الصرفي للكلمات إلى دراسة بنية الكلمة بغرض التعرف على 
القسم الصرفي للكلمة» كتحديد هل هي جمع أم مفرد» صيغة تذكير أم تأنيث» صيغة 
ماضٍ أم مضارع أم أمر للأفعال ... إلخ» كما #بدف إلى تحديد جذر الكلمة وتحديد 
الزوائد التي أدخلت على الجذر لصرفه. 


ات 
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وهذه العملية مهمة جداً لتحليل الآراء ففي حال الاعتماد على المعاجم القطبية 
لإجراء عملية التحليل فإن المعاجم المتاحة لا تحوي كل أشكال الصرف للكلمة 
القطبية» فمثلاً قد يحتوي المعجم على كلمة «رائع» ولكنها لن تحوي ربما كلمات مثل 
(رائعة» رائعان. رائعين» رائعون. رائعينء إلخ. ولهذا فإن عملية التحليل الصرفي تساعد 
عمليات التحليل التالية في إدراك أن كلمة مثل «رائعان» مرتبطة بكلمة «رائع» الموجودة 

كذلك في اللغة العربية قد تدخل الضمائر على الكلمة» فمثلاً قد يحتوي نص ما على 
كلمة مثل «حسناتهم»» والتيى هي مكونة من قسمين: «حستنات» وهي جمع احسنة) 
والضمير «(هم). فالمعاجم القطبية قد تحوي كلمة مثل ١حسنة»‏ ولكنها لن تحوي 
الأشكال الصرفية الأخرى أو الحالات التي يدخل فيها ضمير على الكلمة. 


٠»‏ التجذيرو التجذيع سمدع .بآ سه عمستسسعنك 

وهما عمليتان تحاولان تجريد الكلمات من الزوائد الصرفية التى تدخل عليها 
وتحويل الكلمة إلى جذرها الصحيح (كما في التجذير) أو صورة قريبة من الجذر (ك) في 
التجذيع)» ويلجأً الباحثون إلى استخدام هذا النوع من المعالجة مع الطرق المعتمدة على 
تعلم الآلة يدف تصغير فضاء المعرفة اللغوية الذي تحتاج الخوارزميات إلى تعلمه حتى 
تتمكن من تحليل النصوص وتصنيفها. 

00-111 الكشف عن الإشارات المشتركة صمنان[اهوع]1 ععدع‎ ٠ 

ويقصد به التعرف على الإشارات المختلفة في النص التي تشير إلى الشيء نفسه سواءً 
كانت هذه الإشارات على شكل ضمير يعود على الثبىء. أو إشارة إلى الثبىء باختصار 
أو جزء من الاسم. فمثلاً في جملة: «أفضل شركة سامسونج على آبل بسبب تجربتي 
السيئة مع منتجاتها». الكلمة القطبية «سيئة») موجهة نحو منتجات الحهة المشار إليها 
بالضمير «ها» الملتصق بالكلمة» وحتى تتمكن تقنيات تحليل الآراء من ربط هذا الرأي 


القطبي بشكل صحيح يلزم تميبز أن الضمير «ها» هنا يشير إلى شركة آبل كم| هو مفهوم 
من السياق: 
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)ُ:6ا ب ييا 


٠‏ تصنيف أقسام الكلام عسلعع 2" طاعععم5 01 تروط 

ويتم فيها تصنيف كل كلمة في النص بحسب حالتها الصرفية وبحسب سياقها 
الإعرابي» كتصنيف الكلمة من حيث كونها فعل أو اسم أو حرفء وتمييز الفعل من 
حيث كونه ماضيا أو مضارعاً أو أمراًء أو تصنيف الاسم على أنه مفرد أو مثنى أو جمع. 
وتمييز الحروف على أنها أدوات عطف أو وصل أو تأكيد» وتمييز الأسماء إلى صفة أو 
حالء أو غير ذلك. 

وهذه العملية مهمة لحاجة تطبيقات تحليل الآراء إلى التعرف على الصفات. فكثير 
من الكلمات القطبية صفاتء كما أن هذه العملية تسهم في كشف الغموض الذي قد 
يكتنف بعض الكلمات إذا ما عوملت منفصلةً عن سياقها. مثال لذلك في اللغة العربية 
كلمة «ذهب» ففي بعض السياقات هي اسم معدن ثمين وتستخدم بشكل متكرر كصفة 
إيجابية» وني سياقات أخرى هي فعل ماضي للمفرد الغائب. 

. تحليل البناء النحوى وسنوية2 عناع ةمرك الإعراب وسمزويةط تإعمعلدء مع[ 

بدت عمل ليل البساء التحرى ]ل كف بية الخطلة من الناحية الجحرية كيان 
مثلاً أن خلة ما تتكون من شرط وآداة شرط وجواب شرطء أو تحديد الكلات المكونة 
لعبارة اسمية 211856 ننا7]10 أو عبارة فعلية عوقختطط طانه/؟. 

أما الإعراب فيهدف إلى كشف العلاقات الاعتتادية والمعنوية بين الكلمات» مثل 
تحديد الفاعل والمفعول به والمفعول لأجله. إلخ. 

وكا ذكرنا سابقاً فإن الكثير من طرق تحليل الآراء على مستوى الجمل تحتاج إلى 
تحليل البناء النحوي والإعراب حتى تتمكن من ربط الكلمات القطبية بمصدرها 
وبالجهة التي تستهدفهاء وتحتاجه كذلك لتعرف إذا كانت التعبيرات القطبية تقع في 
سياق منفي مثلا با يستدعي عكس قطبيتها. 

والآنء نستعرض طرقاً مختلفة لتحليل الآراء نصنفها إلى: 

٠‏ طرق تعتمد على خوارزميات مصاغة بشكل يدوي 11165 260هر1ء-لمة1]1 

وتستخدم موارد لغوية كمعاجم قطبية وغيرها. 
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٠‏ وطرق تعتمد على تقنيات تعلم الآلة التقليدية. 

؟ وطرق التعلم العميق. 

وهذا التصنيف يمثل أيضاً التطور الزمني الذي مرت به طرق تحليل الآراء» فالطرق 
المعتمدة على الخوارزميات اليدوية والمعاجم القطبية تمثل المحاولات الأولى لتحليل 
الآراء وقد عمد إليها الباحثون في ظل ندرة النصوص المقترنة بقطبية معروفة بشكل 
يمكن استخدامه لتدريب خوارزميات تعلم الآلة» ثم مع توفر مثل هذه البيانات بدأت 
تبرز الطرق المعتمدة على تعلم الآلة كبديل قوي حل محل الخوارزميات المصاغة بشكل 
يدويء ثم مع اتساع نطاق الإنترنت وزخم البيانات الذي شهدته الشبكات الاجتاعية 
وتوفر كميات مهولة من البينات المصحوبة بآراء معروفة القطبية» برزت تقنيات التعلم 
العميق وأصبحت هي الآن الخوارزميات الأساسية المستخدمة في تطبيقات تحليل 
الآراء. 


١‏ - الطرق المعتمدة على المعاجم القطبية 5دمع لزع .رآ أمعدستامء 5ه 

هذه الطرق تستخدم خوارزميات يتم تطويرها بشكل يدوي وتعتمد على دراية 
مطورها بالمجال الذي يجري تحليل الآراء فيه» وتحتاج إلى استخدام موارد لغوية كمعاجم 
القطبية» وقوائم أدوات النفي» أو كلمات تفيد التقوية 101655166860 أو التضعيف 
68 مع إلمام بقواعد اللغة وأنواع العلاقات التي تربط المكونات المختلفة 
للجمل ببدف الكشف عن نطاق النفي إذا وجدء أو ربط التعبيرات القطبية بمصادرها 
والجوانب التي تستهدفها في النص. الفكرة العامة لهذه الطرق هي أنها تفحص كل 
كلمة في النص وتبحث عنها في المعاجم القطبية» وتصنف كل كلمة إلى موجبة أو سالبة 
أو متعادلة» ويتم تعيين قيمة رقمية لكل من هذه القطبيات فكل كلمة موجبة مثلاً 
يتم التعبير عنها بقيمة عددية موجبة ١+‏ أو +7 بحسب شلدة القطبية [ في حال توفر 
معلومات عن شدة القطبية في المعجم المستخدم- وبالمثل فإن الكلمة السالبة يقابلها 
رقم سالب ١-‏ أو -5 » والكلمات المتعادلة يقابلها الرقم ٠‏ 5171] [55] [571[]55]. 
تراعي هذه الطرق أيضاً وجود ما يؤثر على اتجاه القطبية أو قوتها من خلال مجموعة من 
التواعب للصاغة وك يذوق قمكاذ 13 استويت القجلة هل أداة تكن وو قفيق الكامة 
القطية قنطاق مسيافة محيكة دمقاننة بالكلات سين آداة النتى يكم عكتين قطية الكلمة 
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والقيمة العددية المرتبطة بهاء وكذلك إذا تبعت كلمة قطبية إحدى الكلمات التى تؤثر في 
شدة قطبيتها يتم زيادة أو تقليل القيمة العددية لقطبيتها وفقاً لذلك ] 7ه ] [9ه]. 
بلي ذلك تجميع هذه القيم على مستوى الجملة ثم على مستوى النص بكامله» وبذلك 
تكون القطبية النهائية للنص هي مجموع قطبية الكلمات المكونة له. 
المشكلة في هذه الطرق هو اعتتمادها على توفر معاجم قطبية ثرية» وتستلزم معرفة 
قوية باللغة المستعملة في النصوص بشكل عام؛ وبطبيعة الموضوع الذي يجري تحليل 
الآراء فيه بشكل خاصء وتحتاج إلى صياغة قواعد خاصة لكل من المواضيع المختلفة» 
وهو ما يتطلب جهداً كبيراً من الباحثين» فمثلاً القواعد التي تصلح لتحليل التعليقات 
على المنتتجات الإلكترونية لا تصلح بالضرورة لتحليل الآراء في النقاشات التي تتناول 
مواضيع فكرية. هذا بالإضافة إلى أن هذه الطرق هي الأقل من حيث الدقة في نتائجهاء 
ولذلك انصرف اهتمام الباحثين عنها إلى الطرق المعتمدة على تعلم الآلة. 
؟ - الطرق المعتمدة على تقنيات تعلم الآلة التقليدية وستصيةء.آ عسنطعدة31 
في هذا النوع من المقاربات يتم الاعتماد على تقنيات تعلم الآلة للتعرف على الأنماط 
اللغوية المرتبطة بالتعبير عن المشاعر والآراء في النصوصء ويلزم فيها توفر نتصوص 
معروفة القطبية» ويلزم قيام الباحث بتعريف عدد من الخصائص اللغوية 5عنائةع*1 
التي يظن أخها مرتبطة بقطبية النصء وبدلا من صياغة قواعد ومعادلات يدوية لتصنيف 
قطبية النص » تقوم خوارزميات تعلم الآلة باكتشاف العلاقات بين الخصائص التي 
يعرفها الباحث وقطبية النص وبناء نموذج قادر على تخمين قطبية أي نص جديد 
بمعلومية خصائصه. 
ومن أمثلة الخصائص 868111565 التي حاول الباحثون استخدامها في هذا النوع من 
تحليل الآراء ما يلٍ: 
خصائص لفظية 25ن96ء1 1091,ه1.6: ومن أمثلتها المفردات المتتالية 12-8178125 
سواءً من خلال رصد وجود أو غياب كل من هذه المفردات -مع1 /81081 
0 أو من خلال تعداد تكرار كل منها في النص الواحد 161500 
117) لإعمعناوء1) وتكرار ظهورها في النصوص المختلفة -1'6 10061112614 
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1(17) نإع0162))» في هذه الحالة يكون كل 2-81810 في النص عبارة عن خاصية 
عتتطوء8. هذا يعنى أن عدد هذه الخصائص قد يكون كبيراً جداًء وهنا تكون 
العربية لأنها تقلل من عدد هذه الخصائص وتجعل خوارزمية التعلم الآلي أقدر 
على التعلم. 
بعض هذه الخصائص ممكن أن تعتمد على المعاجم, مثل تحديد عدد الكلمات القطبية 
في الجملة» وتحديد إذا ما كان النص يحتوي على أدوات نفي أو تقوية أو تضعيف. إلخ. 
ولهده كالح يح ترا قرا عد قارو قي و الطرف لودو به السارقة وج يكم | دخان 
هذه الخصائص لخوارزمية تعلم الآلة» ويترك للخوارزمية أن تتعلم كيفية الاستفادة من 
هذه المعلومات لتصنيف القطبية. 
خصائص بنائية 1*6361116©5 5111011181: وهى خصائص متعلقة بتركيب الجملة 
والكلمات المكونة لماء ومن أمثلتها طول النصء المسافة بين الكلمات القطبية 
وأداة النفي إن وجدت» موضع ظهور الكلمات القطبية في النص أو الجملة» 
إلخ. 
خصائص نحوية 5ع1*6811 590]86110: وهى خصائص تتعلق بالبناء النحوي 
للجملة والعلاقات الإعرابية التي تربط كلماتباء ومن أمثلتها تصنيف أقسام 
الكلمات د<اءءءم231-02-5. وتفيد هذه الخصائص في جعل عملية تحليل 
الرأي أكثر إدراكاً للسياق فمثلاً بدلاً من استخدام الكلمة فقط مجردة من 
سياقهاء يصبح بواسطة هذه الخاصية معروفاً إذا ما كانت الكلمة استعملت 
كصفة أو اسم أو فعل» وإذا ما كانت للمفرد أو المثنى أو الجمع» أو إذا كانت 
للمذكر أو المؤنثء إلخ. 
ومن أمثلة هذه الخصائص أيضاً العلاقات النحوية التى تربط الكلمات مثل ارتباط 
المبتدأ بالخبر في الجملة الاسمية» والفعل بالفاعل في الجملة الفعلية» إلخ. ومثل هذا 
الخصائص تكون ضرورية أكثر في حالة الحاجة إلى ربط كل كلمة قطبية بمصدرها 
وبالجانب الذي تستهدفه. فبدون أن تكون هذه العلاقات النحوية متاحة لخوارزميات 
تعلم الآلة يكون من الصعب تعلم هذه العلاقات بشكل مباشر من النص. 
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جربت العديد من خوارزميات تعلم الآلة لتعلم تصنيف قطبية الآراء» على 
رأسها خوارزمية التصنيف المعتمدة على مجموعة النقاط الداعمة 1م]ءه/؟ 011ممناك 
68 وهى ربا أكثر الخوارزميات استخداماً في هذا المجال وذلك لكفاءتها في 
التعامل مع أعداة ضخمة من اللمخصائص» وخوارزمية بييز البدهية 883/65 عالوللء 
وخوارزمية التصنيف بحسب أقرب النقاط المجاورة 215-1117 والخوارزميات التى 
تستخدم مجموعات أشجار القرار 505610165 1166 . ْ 


- الطرق المعتمدة على التعلم العميق ع شنط 1دع.1 ممرءء12 

شهدت السنوات العشر الماضية صعودا كبيرا لتقنيات التعلم العميق في العديد من 
المجالات وحققت نجاحات باهرة في تحليل الصور 2506655128 2151386 وإدراك 
الكلام المنطوق 1105معمء16 داءءءم5. ومعالحة اللغات 132811286 121لنكة]ا 
58أ55ء66. الميزة الأساسية في هذه الطرق أنها تستطيع التعلم بشكل مباشر من 
البيانات في صورتها الخام وتعفي الباحث من الحاجة إلى تعريف خصائص محددة بشكل 
يدوي. الصورة الخام للبينات 169601565 107-16761قد تكون عبارة عن الكليات 
نفسها بتسلسلها في النص أو حتى يجموعات الحروف المتوالية قوع حص ععاعهتقط0 . 

تستخدم هذه الطرق أشكالا مختلفة من خوارزميات الشبكات العصبية 
71611138153 » وينصب تركيز الباحثين فيها على بنية نموذج الشبكة 21001 
ماع16 1ش من البنى المستخدمة بشكل متكرر في مجال معالجة اللغات الشبكات 
العصبية المتكررة 716550115 2161121 1601604 ومن أمثلتها شبكات الذاكرة 
قصيرة المدى الطويلة/1.:5173) 116120177 161132 512011 10285)» والشبكات العصبية 
المبوبة/015011) 2160115 21ناء]8 أمعت“تتناء16 03160). ومن البنى المشهورة 
أبقيا الشبكات العصبية الالتفافية 01111)) 21170115 21تناء]! 00257011161081) في 
شكلها المطبق على النصوص فضلاً عن الصورء وأخيراً البنى التي شهدت صعودا كبيرا 
مؤخرا النماذج المنتبهة لنفسها 210015 مهنامءع]1ى-#اء5 ومن أمثلتها خوارزميات 
:15101121 و 818161 من شركة جوجل. 

ونظراً لأن هذه الخوارزميات تحاول أن تتعلم من البيانات الخام بشكل مباشر فإنها 
تحتاج إلى كميات كبيرة جداً من البينات حتى تتمكن من اكتشاف العلاقات الاقترانية 
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بين الكلمات (أو الحروف في بعض الأحيان) وقطبية الآراء. المثير في هذه التقنيات أنها 
لا تعتمد اعتماداً كاملاً على التعلم من نصوص معروفة القطبية» فبعض مراحل التعلم 
لا تحتاج سوى نصوص بدون ضرورة لمعرفة تصنيفها 08تتتتةء.آ 05101061571560 لآ» 
وتبدف هذه المرحلة إلى تعلم تمثيل معنوي للكلمات 82500128 11010 وهو عبارة 
عن مجموعة من الأرقام التي يتم تعلمها بشكل آلي لكل كلمة بحيث تصبح هذه الأرقام 
بمثابة تمثيل رقمي للمعنى الذي تحمله الكلمة و الذي يتم استنباطه من خلال رصد 
مئات آلاف السياقات التي وردت فيها الكلمة في ملايين النصوص التي يتم تدريب 
الخوارزمية عليهاء ثم يتم استخدام هذه الأرقام للنيابة عن الكلمات في المراحل المتقدمة 
من تعليم الخوارزمية والتي يلزم فيها استخدام نصوص معروفة القطبية سواءَ بشكل 
كامل نوع .رآ 0ه15كلء م511 أو بشكل جزئي أو ضعيف 10س لء م5 علهء717 كأن 
يفترض أن احتواء النص على وجه تعبيري ضاحك دليل على أن النص يحمل قطبية 
مو جبة. 

وما يميز هذه التقنيات هو سهولة مواءمتها لتصبح قادرة على تحليل الآراء في 
مجالات مختلفة من خلال تقنيات 1,6310128 1135161 بحيث إذا تم تعليم الخوارزمية 
على تحليل الآراء في مجال مين مثل مراجعات الأجهزة الإلكترونية» فإنه لا يلزم إعادة 
تدريب الخوارزمية من الصفر حتى تتمكن من تحليل الآراء الفكرية في الشبكات 
الاجتماعية مثلاً. وذلك لأن هذه التقنيات تسمح بالإتيان بالنموذج التي تم تعلمه 
للمجال الأول ثم مواصلة تدريبه على مدونات نصية من المجال الجديد في عملية تسمى 
أعياناً «مواءمة المجال») 40372181102 صنةدده<1 أو «المعايرة الدقيقة») ع منصنا1"-عم11. 
ومن ميزاتها يفا سهولة إجراء التعلم المتزامن للمهام المختلفة ع متمتتدع! عادة-2/]1111 
وهو ما يجعل من الممكن تدريب الخوارزمية لتصبح قادرة على إجراء أكثر من مهمة 
بشكل متزامن مثل تدريب النموذج على تحليل قطبية مراجعات المتتجات» ومراجعات 
المطاعم» والآراء الفكرية في آن واحد! 

وقد أصبحت طرق التعلم العميق الأكثر استخداماً بين الباحثين المهتمين بتحليل 
الآراء في اللغات المختلفة» والتي لاقت اهتماما خاصا بين الباحثين في اللغة العربية 
وذلك لأن التعقيد الصرفي والنحوي للغة العربية يجعل الاعتهاد على الخصائص المعرّفة 


-/ا1ا- 
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يدوياً صعبا جداً وغير عملي. هذا التعقيد من شدته جعل تقنيات التعلم العميق في 
تحليل الآراء العربية أقل نجاحا منها في اللغة الإنجليزية مثلآء وقد وجد الباحثون أن 
إجراء التحليل الصرفي وتقطيع الكلام بناءً على نتيجة هذا التحليل (بل وإجراء عمليات 
معالجة مثل التجذير والتجذيع) تعتبر خطوات مهمة لتعظيم النجاح الذي تحققه هذه 


التقنيات في تحليل الآراء العربية. 
مصادر وأدوات 


نستعرض في هذا القسم مجموعة من الموارد التي نظن أنها مفيدة في مجال تحليل 
الآراء» ويمكن أن يستفيد منها من يحاول إجراء أبحاث في المجال. أو يحاول أن يبنى 
أنظمة لتحليل الآراء. سيقتصر العرض هنا على الأدوات الخاصة باللغة العربية. 

.١‏ أدوات المعالجة المسبقة للنص: 

نستعرض هنا بعض الأدوات التي يمكن استخدامها لتقطيع النص وإجراء عمليات 
التجذير والتجذيع والتحليل الصرفيء وغيرها. 

ومن الأدوات المتاحة لمعالجة النص العربي :813/111 ]5١1[‏ وتضم أدوات لتنفيذ 
العديد من المهام الأساسية في معالجة اللغة العربية» كالتقطيع 101»601281108» وتصنيف 
أقسام الكلام 8 ااءء6م5 231101 والإعراب السطحي موه 512110. 


ومن الأدوات أيضاً 21414 [11] وتحتوي الباقة على محلل الصرفي وأداة لتقطيع 
النص وأداة لتسوية النص ته عنطام هع مط0» وأداة لتحويل النصوص 
العربية إلى ترميز 450011 وفق طريقة 811155721]1. 

ومن أدوات المتاحة لتحليل البناء النحوي للجملة 281561 51801010 عط1 171 ] 
وأيضاً دهوروط 5 ["17 ] وكلاهما يدعمان عدة لغات منها اللغة العربية» ويمكن 
استخدام نفس الأداتين لتصنيف أقسام الكلام كذلك ع2اعع12 طاءعءءمو-201-01. 
ومن الأدوات التي توفر إمكانية الإعراب وإيجاد العلاقات الاعتمادية للباحثين 
والمطورين اء5تة15002ا1 151 ]. 


-١58- 
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نستعرض هنا بعض المعاجم القطبية العربية» ونعرض نوعين من هذه المعاجم. النوع 
الأول هو المعاجم المعدة بشكل يدويء والنوع الآخر المعاجم المبنية بشكل آلي أو شبه آلي. 

٠‏ المعاجم المعدة يدوياً: 

من أمثلتها معجم 4780566 ]5١1[‏ ويضم 7,97 صفة تم استخراجها من 
مقال من بين المقالات الموجودة في علهمة8 116 418510 [15 ]» وتم تصنيف هذه 
الصفات إلى إيجابية وسلبية ومتعادلة على يد ثلاثة من متحدثي اللغة العربية. 

شق الأمثلة أيضاً معجم '5115:47 173] وتم بناؤه بطريقة مشايهة ويحتوي على 
0,060" صفة. 

ومن المعاجم القطبية المتاحة كذلك6©5.آ[1/116]1 [147» ويتميز باحتوائه على 
تعبيرات متعددة الكلمات بالإضافة إلى الكلمات المفردة» ى) أنه يضمن كلمات وتعبيرات 
عامية باللهجة المصرية بالإضافة إلى الفصحىء بالمجمل يحتوي المعجم على 0,157 
عبارة أو مفردة قطبية. وتتوفر نسخة مطورة من هذا المعجم غ6.آ[]007116ءااع 171/6 
تضيف وزنا يمثل قوة قطبيته [؟ ؛؟ ]. 

٠‏ المعاجم المعدة بشكل آلي أو شبه آلي: 

ومنها 4185681 [11] ويحتوي على 74 ألف جذر عرب مع أوزان يحدد قوة قطبية 
كل منها. و.18[415131] وفيه تم تصنيف الكلمات في المعجم إلى 8 أنواع من المشاعر 


مع إعطاء وزن لكل منها. 
ومن هذه المعاجم أيضاً 51:54 [14] الذي يضم قرابة 5" ألف جذر عربي مع 
تصنيف قطبية وشدة قطبية كل منها. 


“. مكتبات بر جية: 

من أنظمة تحليل الآراء المتاحة للغة العربية نظام ]١١ ١15/87/81‏ وهو نظام لتصنيف 
موضوعية الكلام 35 17ناءه اه وكذلك لتصنيف القطبية 0)0110681ء5 
315-. وهو غير متوفر للتحميل عبر الإنترنت ولكن يمكن الحصول عليه بطلبه 
من أصحاب البحث. 


- 
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ومن الأنظمة كذلك نظام تحليل المشاعر العربية 4317/2612 أعتطتادء5 عتطامتىم 


؟. مدونات لغوية :0م601 © 

نستعرض في هذا القسم بعض المدونات اللغوية التي يمكن استخدامها في أبحاث 
تحليل الآراء العربية» هذه المجموعات تحتوي على نصوص يتم تصنيف قطبيتها بشكل 
يدوي وفق إرشادات يضعها الباحثون» وتستخدم في طرق تحليل الآراء التي تعتمد على 
تقنيات تعلم الآلة» | تستعمل لتقييم قدرة الخوارزميات المختلفة على تصنيف الآراء 

المدونة اللغوية المستخدمة في [79] تضم 855" جملة تم تصنيف موضوعيتها 
وقطبيتها بشكل يدويء ويمكن استخدام هذه المجموعة للدراسات المهتمة بتحليل 
الموضوعية و/ أو تصنيف القطبية. 

المجموعة النصية "851174111 [1؟7] هى امتداد للمجموعة السابقة وفيها أضاف 
يدوياً. 

من المدونات اللغوية أيضاً مجموعة 1:41 [77] وهي تضم أكثر 77 ألف من 
تقييمات الكتب مأخوذة من أحد مواقع الكتبء وفيها تعليقات على الكتب كتبها أكثر 
من ١7‏ آلف مستخدم. وكل تعليق مقترن بتقييم رقمي من ١‏ إلى 0. مجموعة 581417 
[: 7] هي مجموعة نصية أخرى تحتوي على أكثر من نصف مليون من تقيبمات الكتب» 
وكل التعليقات أيضاً مقترنة بتقيبم رقمي من ١‏ إلى 0 يدخله صاحب التعليق. 

ارح ال الا ا 
باللغة العربية يقترب عددها من نصف مليون تقييم مأخوذة من موقع 001 001 
الشهيرء وكما في المجموعات السابقة كل تقييم نصي يأتي مصحوباً بتقييم عددي من ١‏ 
إلى ٠١‏ يدخله صاحب التعليق. 


ددم اله 
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الخلاصة 

معالجة الآراء واحدة من أكثر موضوعات لسانيات الحاسب الآلي نشاطاً سواءً 
في الوسط البحثي أو الوسط العملٍ» وتطبيقاتها كثيرة ومتشعبة وتلامس جوانب 
عديدة من حياة الناس. تشتمل معالجة الآراء على مجموعة من المهام الفرعية الأساسية 
كالتعرف على موضوعية الكلام وقطبيته ومصدره والجهة المستهدفة به. ومهام متقدمة 
تحتاجها بعض التطبيقات كتلخيص الآراء وتتبع تطورها وكشف انقسام الناس حوها 
إلى بجموعات. يمكن تصنيف المقاربات التي لحا إليها الباحثون في هذا المجال إلى ثلاثة 
أضناف:تقاريات تعتمد عل المعاجم القطبية» ومقاريات تنعمد عل خخرارؤميات تخايم 
الآلة التقليدية» ومقاربات تعتمد على تقنية التعلم العميق الحديثة. تحليل الآراء العربية 
تواجهه تحديات خاصة نظرا للثراء الصرفي للغة العربية وتعدد لمجاتهاء وغياب التشكيل 
من معظم النصوص المكتوبة بها. ولهذا السبب فإن للمعالجة المسبقة للنص العربي قبل 
إجراء عمليات تحليل الآراء عليه لها أهمية كبيرة في زيادة دقة تحليل الآراء. ومن هذه 
المعالجات المفيدة التحليل الصرفي» والتجذيع» والتجذير» والإعراب» وتصنيف أقسام 
الكلام وغير ذلك. الجهود البحثية في تحليل الآراء العربية أسفرت عن مجموعة غير 
قليلة من الأبحاث المنشورة والمدونات النصية والمكتبات البرمجية المفيدة في إجراء 
البحوث وبناء التطبيقات العملية لما. 
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011 آل“ 7ع120 .0[آ و 002910132 1 03136[ حتاطثى ذث عقطال .خآ 
-1181 ع3281128[ 3601131[ «ذ5ع 1 اع دام أمعاء5 101 7515تلحصظ ملتة 011 
»11611186 


عات 
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]21[ 


]22[ 


]23[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ا:6ة6ا ييا 


حتخطع؟ 101 11261005 116116م 0 01 متاععاء ا“ عاعتنه1! .5 و تتقطلخ .م 
حاععاء(1 ذه ممطوكلده؟1 عط 4ه وعصتلءوءمء2 تأليف «ممتاءهاء0 أمعدم 
2 :01560011156آ 560131197 12 عتتاء متاك ع1 


-ع0 لطع ع5 1102هأ1ه لععمقطمع سرع امم ن)“ “تقطتخ .كذ و 1أع1ناء1 .5 
حلتده]! عط 01 ععمععكمده0 2012 عط 4ه وعمنلووءهء2 تأليف «».دمتاءه] 
-11281115آ 2012011121101131) :101 506131101كخى عط 01 اع ام قطن مدع 1ع طم 

2 ؛و10] 


-56116 5621206 1151285 1121410155 01 32317515 لتعمصخطء5 '“ “تقطتخ .مر 
ع5 2011 :6217م عطا؟ه وعصتلءوءمء2 تأليف «:وه ددع 0ع 5ة6- مقن 
؛:5655101 


5 1101111-01 ذخ :11خ /اكط “ 11.1013 رو لععع113-ا تلط .831 
-إ[قطث دمع مستخمء 5 لله (جااتكتاعء زطردك عاطدعخل 02 صداد متعله/8 101 
ععاء01-121) 13110531عغام] لطعاط عطا 01 دع متلعععمعط تأليف «»515 

01 1211811386 161650111665 320 17311121106» 2 


ع121856-5221 2 11110128 101310“ 101356 .121 و لععع113-انتلطخ .13/1 
-تعامآ غ6 عط 04 دعمتلووءءمءط2 تأليف «6.ممععع1 أمعستادعة عتطوتم 
2 :عع تع مهن أءالخ-1010ا 1دطمان 1همم نهم 


-3110 101 1خطع5 لطة 17تماعء زطناك““ 180136٠‏ .141 و 0ععع1-112نتلطك .831 
وعطنلءع ع0 تأليف «0 065,16 عأطه مدل مهاد ستعلمط 2ه متها 
1 :؛ر,ممط 11/011 0121102 مذ غ51 1ناعطارآ لاد عطا 1ه 


ع5 لل :031طة5“ 101366 .01 و تتعاطعدك]ا .5 ٠0ععع113-اتلطكم‏ .831 
«013“6ع12 506121 212612 01 20315:515 اعمط امعد 0ه 7جااتكتاءء زاناد 101 
-مشاهصههنامحصه © صذ مومطعا:ه11 380 عط 2ه دعمتلوءههءط تأليف 

:»121775156 ألاع اع 5 لطتة 7117كلاعن زطناك 10 وعطعة10م 


:575 41361 1013166121 01 أطع اطع 5 1355115108" »اطنتقطات .0 
1031 الث 111121610021 تأليف «102616ممخ 0ع1715ع1-5110ماء 5 لخر 
.9 »9ع 010قطعت1' 11136101م1م] 01 


-313 101 جاعة10مم3 0ع5031ماتته تإللبا ذث »نوع ماع 81-8 .5 و تتقطدكاط .]1 
1011001055٠ 121123610031 000-‏ لامعا ملاع هتتاءء وامعلكردع1 عمهاد ع1 


مات 
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]31[ 


]32[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لظ د ىو وى ااا 


حطارطآ 112110231امحطمت 220 عسصتووعء2]0 ع1 أمعع 1ااعاص[ اه ععمعين1 
4 ؛51115]1656 


-ع1315 :4135211 “210326 15خ .خذ د 21115 - اخ .1 ادع 15211 -اخ .اا 
01 5ق طتلععع210 12206025١‏ أمع تمعد عاطوتهة عطاععمد داع 1 علوهد 
010111210531 ) 101 06126101وهق4 عطلا 01 ع طتاءء11 ادتتصصخ كذ عطا 

؛1128111511605آ 


2301 02 32219515 اتلاعططتامع5 عطمالنلطخ .11 و ع1لدعلتجلد8 .3/1 
01 012855ءعع206 [32811386٠‏ عطا عصتاءء0155 م1 وععمع !اهقطن :قاعء:ا 
50131 320 05اأتامحط00) 506131 ذه ععمعتع كمه لهدمل1لهمتعتم]ا عطا 

111 7 


-7ق2031 اطع لطاخمع5 22616 01 ((ع51111 عكاممعطاء 1م مامه خن ١1ج‏ .ء .خم 
.5 6 11ع12ءع8 1/1323 ع 210655125 0101150311010[] 515١‏ 


-1138ع101 ننلع ]1 2[ 32317:515 اطع امعد عاطوعمظ زه 7ع157نا5 212 .ء .م 
:12062 ععمعاء5 001م1ا 


56110111 1ك 101 01211011قطث 15ام001 له '5161ع1] ن 12و .ء .مر 
210 111285ملطه0ن) 506131 2ه ععمعتعكمهن) 2110221متعتم] ١‏ 15وتزلومم 
7 :؛»:013ع11 506191 


:7515 56211176176 ع1طهتث :410055311 .11 د لللتقماظ .ذخ تتزووخ .مر 
561 تلام دده ن) لعع طم كلخ 01 10111231 3610031 ماع م1 »نوع تتتناو ل 
؛1162610585ممخ له 


88 05 17117 لل ١1[همتوت‏ .لكل و تقطقطد .>1 ١1لمصقط‏ .م 
حاء5 لع11امططاهن) 01 11231ا0ل »7:515[حصك الاعطتامعءك عاطوعخ ما 5عناد15 
6:عممهء 


ك1كك .8 .> ءللخ اطاط ١ 8. طخ[ل١ 11١.‏ لاتلفظ .]1 ١‏ 0[درادظ .0 
01 تزع17ناك ل »101[/لفخط .در 8خ[ [خ 5-.[آخ .ذخ [1١‏ كذظ خآ .ال ١‏ الدظ 
17 تلطع ]5775 11و معلاع 1 مدطه تن خم :ع1 تخ ما عمتستاط ممتصام 0 
,10015 روع1]501112 ,10015 12 وععطة كلخ لطنة 5ع8 0121162 ع_مطتتاء 0017 
210 45131 01 113252611015 ' ناخ »171511211221105 210 11631410125 ممم 

.5 :2100655118 12101172211011 121811386 ع :101-15650101 


وا اب 
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]35[ 


]39[ 


]40[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


34 1كااعه طناك“ غداع:0133 1 .71 و 10136 .71 ٠0عع1-11238تتلطث‏ .13/1 
-لءءء2:0 د تأليف «ءزطهوع4 5320210 ممعلمطط 2ه 20215:515 اماع ستامعة 
-11م 0012 101 455061211012 عغطلا 01 عصتاعع/8 ادتتصسمخ 4915 عط 01 دعصا 

؛5ه15]16تاع طاآ 13610021 


-لقطظ 7جااكتاءء [نا5 ععمعتمع 5“ عاموط1مط0 .حى .لخ و كاءط6 تلطوتة ]ا .31 
081 18818/17710401 تأليف «؛وستقصطده1 لوأء50 طز مزور 
أخمعع 11اعتما امه ([1171) ععمعع1[1اعتم[ ماء/1ا اه د5ععمعمعكمهمن) أستمل 

41(6»6آ) دعاع10مصطاءع1' أتمععم 


لاع 1اطع5 171 7010 320 عمقتطام خ :زع .[ ناع11لل“ »للع 112اء81-8] .5 
-1210 تأليف «ءع1طوتتخ 512320310 2مع7200 320 مقتامتزعء 101 امعلرع1 
5 2151128[ 01 ععمعل1ع 1م20 2110021متتعتم] عطلا 1ه دعمتلععه 

310 87721112110026» 6. 


562111011 ع أ1طوتخ لع5601 ذخ :ىزع .] ناع11لللعتطعاء 17" ع 12اءع81-8 .5 
-210 ع12251128آ1 تأليف «»3231797515 لاع اعد 0ع101محطة :101 جامعلعرع1 
-15 121ع6م5 .قططع 555 أمعع 101111 320 2م تمع معع]آ ماعلة2 ,ع ماووعه 
85 1121285 50660 ,1251115]165آ 1112610531م0مت 012 عناد 

7 ::.0) 51285 [اطناظ علتتمعاء5 1710110 .عع3281128[آ عاطدحتخ 101 


1ة1عمعع عط!“ ٠5ع1د8‏ .1 ختاء0] .11.0 .نآ .اط .2 .ل و عمماد .ل »متلتطط 
171 320 32317:515 لتاعغامء 101 جع ا؟ز؟5 اع 1امطدمه لل :1ع111ا0طا 
0 001211615 «6 12101231105 01 أتطنا 2 35 ععمعامءد عطا ده لعمةط 

2 عأععمع1ء5 10121 7تقطع8 


كم[ :ص1 كه 220 01315 25111125ع1/1 “مانا .1/41 و لإعمترط 2 
-ع113253' 1خ «255061311056 8011 102لةأطع011 عتلأمقمطءةد 01 ععمء 
.3 315-3466 .م »المجلد 21 »55/511075 1210110211012 1ه 11025 


عتأطتممطاء5 عطا عمتاعتلع1“ تامع كلء81 .1 و ناماع 821217255110 17 
01.67 شر تأليف «٠.وهكتاءة(20‏ 01 ممناهأمعتزه 


أ 1ل717/010١‏ عماونا“ 101111٠‏ .141 و طععلكاه/ة .1 »عتتد/ة .11 “ومصطة كا .ل 
-لوءءه:2 تألبيف «0و6كناءة (20 014 كممن ماصع 0ه عتاأسقددعة عتتاكوعم 10 
5 21181128[ 011 00111266 3]1031تتتعام[ا انك عطا 01 دع 10 

3200 87701113110026 04 


نااك 
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]45[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك د --_|||سسييييىو وى ااا 


كل[773 1220012 ث“ 13061١‏ .0آ و نهآ .117 عهتتةل-تاطخ .ذخ “2ة1]355 .م 
-1]8امحط 0ن «1361006مع011 عتامممدعد عمااكتتمعل1 +10 إعلممط لعمهط 
4 539-5626 .مم »المجلد 4» رقم 3 ؛5ع15]1زاع مارآ 610021 


عط 6ط تمع 1“ ١07ع530]‏ .0آ و 52ل .]1 عفتة0لحتاطة .ذل ١موومد8‏ .م 
عط 4ه وعصتلوءوءمء2 تأليف «:70105 مع اء101 01 هم هاطع 1ه عتاتتفصهد 
-قآ 1113610021م0اه0ن) 101 1216101ع0ومق عطا 01 عطتاعع/8 21نتصمك 4911 

1 ؛51115]165 


عاطهتخ عط ع ماعمقطصط '“ عطقن1535:21خ4 .8 رو طمتهزاخ .1 “تمعلكلنك- لاخ .0 
«»131015عم0 2101066551185 لاع 0111[ عملونا 7515(أحصكط الاعط توعد 
-امصطءة!' دم تاق مدوكم[ مذ ملمعءا” بع]آ< عط 2ه وعصتلوءوءمءط تأليف 

7 :101031326 ,170101310 »تع 0 


-010 120120101081621 20ة عتطموتع 0110“ “امدطوط .لط و تإ[مطكا- ا .م 
-1/13 «132512610126] عمتطع قط 5361561621 عاطوعك- ذاعم 101 عماووعء» 
.2 »25-456 .مم .مم 26١‏ .701 المجلد 121026ومة1' عمتطاء 


-2231 ع2 1خطع5 21ناع1111-110/ط"“ “كومطاخ .لا و عمعطن .نآ ءلتسمطخ .ث1 
-مآ 154 عط 4ه وعصتلععءوء2 تأليف «:وصتوعناة داعم [2أع صقم 04 كتور 
-[ع2100 12[1عمقماط :نه تزع 10ممطاءع]' 0110 نه مرمطكعاةهم11 21مه1أهمعا 

7 »:1211026 املك مه 128 


70 -اى .1/1 ؛طاقطعطاد .71 ءلعسحطث. خنته12ل8 ١113تتلطخ.‏ كته ةا 
0ع162216052-25 عطا 1100107718 1015:3105“ “11101-آاث .5 و [طوك]ا- اخ .1/1 
.[مصطاعع1' صا .ل خم[ «:32213:515 الاعمطتامعد عتطوعمخى 101 باعدمممة 

55-7104 .م ءعم8 ماع11 


حطء111لكا .5 و طاعمطة521 .11 ٠2عنا0نة‏ 8130-8 ."1 206 تتتمتخطمل8 .5 
-210 تأليف «0136ع12 506121 عاطوعخ 101 كدمعلع]1 أمعمسمكمء5““ »معلمء 
5 21511286[ 01 ععمع تع 0م00 2110021متاعتم]ا عطا آله دعمتلععه 

:81701136102 مه 


0111 01 60172311505 ععممستتملمء 2“ ععلوءمء][ماخ .خذ رو 720تاكث .11 
-0ءءهمء2 تأليف «ءأطهعة مذ 19:515ه0ة أمعستامهة 102 كممعلع16 غم 
ععطعلع 0001 ععمعع [[أ عام[ ع11ه:؟؟اء لآ ندعم مغختظط 310 2016 عط 1ه دع م1 

.6 ؛:(281110:16) 
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]56[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


«»1916175 211512655 ع1[طوتى عمتستالط“ »«جاعغاط .141 و تحتهحتقطاط .31 
عع مع مع كمه 20021 معام[ 181818 2010 عط 2ه وعصتلءءءهءط تأليف 
1177:1060 1ل]) وممطوء1011 عمتستالطا 10212 


52 101 13126770112 168214101-35731:6“ »الاوطاواك .11 و 01152111[ .]1 
عط 4ه وعمتلوءوءءه:2 تأليف «:1671655 عأطوعة مذ دز وتزلهمة أسمعصسن 
95 ]0 م011[ علطتا 2ه ععمعتع 01م 210021متعتص!ا 310 2015 

320 10110 )111010:15(6 5. 


اطع م1اطامزه عمتلصاط“ »اكد ال-1 .1/1 و تطوطدهك-81 لآ ه0123 .5 
-0 تأليف «»111116112112159:515 81014101125 11116-25021511 1151108 
-1ع11121101خ تمعع اع 31101210011 1ع 21 [مدع لكر الاع 1 هدع متلعء» 

:ععمعع11 


-0106655 ع1طوتخ 101 10015 4خ11 لخ 21100 1عمعع 20امءء5'' ٠13دآ‏ .341 
15 5356 320 ,1288118 205 ,10121731101 ]10115 300 أمهة1 :128 
حطةآ عاطوعط زه ععمعاع امه ن) 210091 متتعام][ تاليف 2 «مع طتعلمتحطء 

.09 »10015 320 5عهع1]50111 ع51128 


101 اكلا 100 لذ :تدعام +2/1203“ اما .]1 و 037 مقا .0 عطمدطقط .آل 
-015310218113 1201001081621 ,01311612364101 ,ه10أة12مععاما عاطمته 
عط]' تأليف «1612011211231101 310 0115تتتاعا5 ,1388118 205 ,1025 
310 15650111665 ع3281128[ عاطوتك 1ه ععمعتع كمه 2610091 متتعامآ 

.09 ؛ملع 1 ,3110) ١(خلخرا[/1)‏ 10015 


-85931 ,وعطتاعىة8 :ع ماكتة2 عاطوتطل تعتاء 8“ »ع لنتمططة/8 .0 و اعع01 .5 
.001116:»60 تأليف «:1(:515[همى لطة ركمهقنا 


-1121102امحط 0 «1ع1100 عطاومه 2‏ كمتلام0 01 دعاعوع عامط“ ٠اعكلاظ‏ .نمآ 
.6؛»11--479 .مم »المجلد 30» رقم 4 ٠15605ناع10.آ‏ 201 


2 1631[ اعع 121 000015" :812 .6 و ذادط .5 11خ .31 
عط 01 دع صتلعءء210 تأليف «»8 2912512 تإعطع لطعم 0ك[ 101 21005[ تتمتره ]1 
101 45506131105 عطا 01 عطتاعء/8 لمتتصمط عطا 01 ععمعنزعتدهن) أاصتمل 
ات0021) 016ل 20091متتعتم]! عطا 220 5ع15]1تاعصاآ 0021 أنامماه 6 

.09 :5115853016 “2106655118 1211511386 1361131 1ه ععمء 


رمات 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الس.ا اا -__|سسيييىو,ى ااا 


متطعم ع1“ تككاء/8 .117 و 1عغ721كاعنا8 .1 »و81 .لث 21320010112 .3/1 
امه عاطوتخ 0ع121امتصة عا1لدء5-عع:13 2 عمتلاتباظ علمواععن عاطوعمطم 
11خ 1ه ععمع نع 1ممن) خلخذ ااا عط 01 وعسمتلعءءم10ط تأليف «»2115 

2004 »:10015 320 5ع1]516501116 1312511286 


ع123186-5631 2 511110128 1017310“ 101356 .121 و لععع113-انتلطخ .13/1 
-16128 ا6 عط 4ه دع سصتلععهعوء2 تأليف «0ممع ع1 أدء ستامعو عتطوتم 
عع تع لع مه أء 1170201 010621 لهدملا 


عع131 ث“ ؛ زن81-11 .117 و امةطقط .آل “ززهط .82 »تإلة8 .1 830212602 .0 
تأليف «“101111118 1101م0 عاطوتخ 101 طمعل<ع1 الاعسطتامءة عاطوعخ علده5 
-210 ع12181128آ 1311131 02 ععمع 1ع 1ده0) 1قتامتمذ عطأ 01 دعستلعءءمعط 

4 :551285ع© 


ءمتفكا .1 »7/1210 .خخ :[2003! .لخ ١1لصطد1-ا[8‏ .0 830260٠»‏ .0 
:1 351 721-2018ط1ماء5 غ2 خالا“ ١زنة81-1 71١‏ و زله1 
1210031ع1 121 عط 1ه دوعوستلععءممط تأليف «٠ع1طوتخ‏ 101 ع لمتصتصحط 

»15721113610056 عالممططعك زه ممرمطعاه11 


-5]32 :101 16716011 521113121 لل :لخ 5[ 5“ :3206015 ]1 .0 و عل مماوظ .]1 
1131[مماط مه ععمعنع01هن) عط 1ه وعستلعءءم1ط تأليف «».ع1طوحك 0210 
.0 »؛:2100655115 13118511386 8]3601131 طآ 05مطاع1/1 


ع لل :الخ الخد“ “1013 .11 و تتعاطنكا .5 ع٠لععع113-انتلطة‏ .831 
تأليف «5061316 ع1طوتخ 01 215515 طخ ألاع 77 اطع 5 له 7جا1تكتاءه زاندك 101 
5 111211053 مهن زه ممطىع11011 310 عطا 1ه وعستلععءعءمعط 

؛12219515ك 711 اطع 5 عله 7جا1تكااءء زطناك 16 


-ماع:175 لل“ 153115337 .لذ و 71/132501 .11 ؛تاأعطاوطة ناخ .آل 11-8125136 .3/1 
-ده© 015عه2:0 تأليف «:302190515 أمء تمعد عتطوعخ 201 1001 03560 
.7 :عع ماع51 تعالام 


5 1201111-86 لذ :'111نخ/اكث“ 10135٠‏ .11 و 0ععع1138-انتلطك .13/1 
«»22317:515 تع مط اعد 0ه جا 1تكتاءء اناد عاطدعخ 0310 طةا5 ماعل مط 101 
01 ععطعل1ع21 00 310031 تتاعام] عطلا 01 دعستلععءءم0ط تأليف 

2 »8772113110526 3120 5ع11ام0وع]1 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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الباب الرابع 
التعلم العميق وتطبيقاته المرتبطة باللغة العربية 


د. أحمد الحايك 
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التعلم العميق وتطبيقاته المرتبطة باللغة العربية 
د. أحمد الحايك 27 


ملخص 

لقد استطاعت تقنية التعلم العميق (08تصتةء1 مءء2) أن تحقق نتائج رائعة في 
العديد من مجالات الذكاء الاصطناعي وتعلم الآلة خلال الأعوام الأخيرة. يرجع 
هذا النجاح لعدة أسباب لعل من أهمها توفر وحدات معالجة الرسوميات ([621) 
ذات القدرة الحسابية الحائلة وتوفر مجموعات بيانات تدريبية كبيرة جدا تصل إلى 
ملايين النصوص أو الصور. ويعتبر كل من مجال تحليل النصوص الطبيعية (63181ة/7 
8 1.212811386) ومجال غييز الكلام المنطوق (0متاتصمعمءع]1 طاعععمة) 
ويجال التعرف الضوثى على الحروف (100مع 11600 1ماع01313© 1هعنام0 أو 01 0) 
من أبرز المجالات التي استطاعت تقنية التعلم العميق التفوق فيها على جميع التقنيات 
التقليدية. هذه المجالات لما أهمية بالغة نظرا لكثرة تطبيقاتها الحالية والمتوقعة» والتى 
تشمل -على سبيل المثال- التخاطب مع الإنسان الآلي باللغة الطبيعية» والترجمة الآلية. 
وعلى الرغم من كثرة الإنجازات التي استفادت مؤخرا من تقنية التعلم العميق لخدمة 
اللغة الإنجليزية وغيرهاء إلا أن اللغة العربية لى تستفد بعد من هذه التقنية بشكل كبير. 

نقدم في هذا البحث تعريفا لتقنية التعلم العميق وتاريخها وأسباب نجاحها الذي م 
يكن يتوقعه معظم الخبراء في مجال الذكاء الاصطناعي. ثم نسلط الضوء بعد ذلك على 
بعض الأبحاث التي سخرت تقنية التعلم العميق لخدمة اللغة العربية من خلال تطوير 
خوارزميات عالية الكفاءة في المجالات المذكورة وغيرهاء ونأمل أن يكون هذا البحث 
نقطة انطلاق للاستفادة المثلى من تقنية التعلم العميق لخدمة لغة القرآن العظيم. 


-١‏ أستاذ مساعد في كلية علوم الحاسب الآلي بجامعة الأمير مقرن بن عبدالعزيز. حصل د. الحايك على درجة الماجستير 
من جامعة سارلاند عن خوارزميته لتتميم صور الخلايا ثلاثية الأبعاد. ثم حصل على درجة الدكتوراه في تتبع حركة 
مع جامعة سارلاند. عمل باحثا في معهد ماكس بلانك للمعلوماتية في ألمانيا وباحثا ومدرسا في مركز الأبحاث 
الألماني للذكاء الاصطناعي في جامعة كايزرسلاوترنء وله العديد من البحوث المنشورة باسمه. 
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١‏ - مقدمة 

فاز كل من صننعآ صصهما "2 ونزء11مء0) ممخصتا] 7 ودتتطادملا مأعمء 78" 
مؤخرا بجائزة تورنج (تشبه جائزة نوبل ولكنها تمنح لعلاء الكمبيوتر) لعام 4١١7م‏ 
]١1[‏ بجدارة عن تطويرهم لتقنية التعلم العميق (وتسمى ايضاً الشبكات العصبية 
بعض الأفكار -التي كان يتصور الكثيرون أنها بعيدة المنال - واقعا نعيشه اليوم. ولأن 
تطبيقات تقنية التعلم العميق في حياتنا اليومية كثيرة ونتائجها منقطعة النظيرء يجدر 
تقديمها للقارئ العربي. 

حتى وقتٍ قريبء» كانت الشبكات العصبية الاصطناعية مستبعدة من قبل مجتمع 
أبحاث الذكاء الاصطناعي. فعلى الرغم من وجودها منذ الأيام الأولى للذكاء 
الاصطناعيء إلا أنها لم تُنتتج سوى القليل جداً من النتائج المفيدة عملياً. ولعل أحد 
أسباب هذا الضعف في الأداء هو أن هذه الشبكات مكلفة جداً حسابياً (أي إنها تحتاج 
إلى إجراء مليارات العمليات الحسابية). بل إن الشبكات العصبية الأبسط منها كانت 
ربا تحتاج إلى شهور لإتمام عملياتها الحسابية على بعض الحاسبات الآلية الأقدم. بالرغم 
من هذاء ظلت مجموعة من العللماء تبحث في هذه التقنية (مثل مأمذ1] 660115 و 
متاعرآ تتحتقلا اللذان كانا يرأسان مجموعتين بحثيتين لتطوير هذه التقنية [؟5]). 

قامت مجموعة 1110105 لإع:060185 بمزامنة هذه الشبكات (أي تقسيمها إلى عدد 
من المهام التي تنفذ في نفس الوقت على حاسبات آلية متعددة ) لإثبات كفاءتها. وفي 
عام 1919م طورت مجموعة <نان)ع.آ متطولا البحثية مفهوم الشبكات العصبية 
الالتفافية 211770110 81:,ناء/2 00257011110281)) والتي مكنت من تقليل التكلفة 
الحسابية للشبكات العصبية وبالتالي زيادة عمقها (راجع الفصل ", ؟). 

وفي عام 7١١٠م‏ استطاعت تقنية التعلم العميق أن تفرض نفسها بنتائجها الجيدة. 
فعلى سبيل المثال تمكنت شركة 1766801100 التابعة لشركة جوجل من استخدام تقنية 
؟- أستاذ فخري بجامعة تورنتو ونائب رئيس شركة قوقل. 


7- أستاذ بجامعة مونتريال ومدير علمى لعدد من معاهد الذكاء الاصطناعى. 


-١55- 
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التعلم العميق في تصميم برنامج 0260م41 الذي انتهى به المآل في عام ١ ١5‏ م للتفوق 
على اللاعب الكوري المحترف 56-001 1.66 في لعبة 600 ["7]. كىم| تفوقت تقنية التعلم 
العميق مؤخرا في محال تشخيص بعض الأمراض كالس رطان رجال التعرف على الصور 
(ع1211628ه أءلاعع113) وغيرها من المجاللات. 

إن فهم فكرة التعلم العميق وأقسامه وتاريخه بشكل تفصيلٍ يساعد في تسخير هذه 
التقنية الفعالة. وحتى نفهم المقصود ببذه التقنية» فلابد من تعريف بعض المصطلحات 
الأساسية مثل: الذكاء الاصطناعيء وتعلّم الآلة» الشبكات العصبية الاصطناعية؛ 
لذلك سنفرد الفصل الثاني من الباب للتعرف على معاني هذه المصطلحات قبل أن 
نسلط الضوء على التعلم العميق وأنواع التقنيات التي استحدثت مؤخرا فيه» ىا 
أننا سنحاول إيضاح أهم أسباب نجاح تقنية التعلم العميق. نعرض بعد ذلك كوكبة 
من الأبحاث الحديثة التى سخرت هذه التقنية لخدمة اللغة العربية في مجحالات تحليل 
النصوص الطبيعية لوه 21211316 ). والتعرف على الكلام المنطوق 
(0821100ع76 داءءءم5): والتعرف الضوثى على النخصوص (167ع012318 11691م08 
0 © وهى جهود مشجعة تأمل أن تتضاعف حتى نصل إلى تطبيقات 
ناضجة تخدم اللغة الغرية والقرآن الكريم. 


؟- تعريف بعض المصطلحات المرتبطة بالتعلم العميق 

في هذا الفصل نقدم تعريفات مختصرة لتقنية التعلم العميق وما يرتبط بها من 
علوم وما يتفرع عنها من التقنيات التي نجحت في تحقيق نتائج قوية خلال الأعوام 
الأخيرة. ولا شك أن تفاصيل وجوانب التعلم العميق لا يمكن تغطيتها في هذا البحث 
القصيرء لذلك فإننا نعرض في هذا الفصل أفكاره الأساسية دون الخوض في التفاصيل» 
خاصة وقد أغنت عن الخنوض فيها مكتبات برمجية مثل هده ]آلإ [4 ] و#لقة© [5] 
و1625011"1017 [1] التي جعلت بناء خوارزميات التعلم العميق أمرا سهلا وفيسرا 
ووفرت شروحا وأمثلة تيسر ذلك؛ مثل الشروح على عملية التعرف على الأرقام 
المكتوبة باليد في مجموعة بيانات 1/2156 [/]. 


-١858ه-‎ 
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رسم توضيحي (3): العلاقة بين التعلم العميق والمصطلحات المرتبط به. 

ولعل أسهل طريقةٍ لفهم العلاقة بين الذكاء الامطاضي رس الآلة والشبكات 
العصبية الاصطناعية هو تٌثيلها كمجموعات متداخلة كىم| هو مبين في الرسم 
التوضيحي .١‏ فالذكاءٌ الاصطناعي هو الدائرة الأكبر؛ إذ خوارزمية تعلم الآلة تعتبر 
خوارزمية ذكاء اصطناعي والعكس غير صحيح. ى) أن تعلم الآلة -بدوره- يشتمل 
على العديد من الخوارزميات مثل شعاع الدعم الآلي (عمتاعهطط 1ماعع7 11مممنا5) 
والشبكات العصبية الاصطناعية وغيرهما. لذلك فإن الشبكات العصبية الاصطناعية 
تعتبر مجموعة جزئية من تعلم الآلة. أما التعلّم العميق فهو أحد تقنيات الشبكات 
العصبية الاصطناعية. 


١‏ , " الذكاء الاصطناعى 

يعرف الذكاء الاصطناعي على أنه علم يهتم بتصميم خوارزميات تستطيع أداء مهام 
محددة بنفس كفاءة البشر أو أفضل. بناء على هذا التعريف فإن أي خوارزمية تحاكي 
سلوكا يختص به الإنسان تدخل تحت مظلة الذكاء الاصطناعي. قعل سيبل القال: 
الإنسان يستطيع فهم الكلام» فأي خوارزمية تستطيع عمل هذه المهمة تعتبر خوارزمية 
ذكاء اصطناعي. وكذلك خوارزميات التعرف على الوجوه في الصور التي تستعمل في 
برامج 1826600016 تحمل بعضٌ جوانب الذكاء البشري [728]. 


0 0 
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تم اعتماد مصطلح «الذكاء الاصطناعي» عام 155١م‏ في مؤتمرات دارتموث [1]. في 
ذلك الوقت كان حلم رواد الذكاء الاصطناعي بناءَ آلاتِ معقدة تمتلك حواسا ويمكنها 
التفكير مثلّ البشر [7»8]. وكما أن للبشر قدرة على التعلم ما يسمعونه ويدركونه 
يشاهدونه؛ كان تعلم الآلة أحد مجحالات الذكاء الاصطناعي التي رمي إلى محاكاة الذكاء 
البشري عبرهاء ومن هنا ظهر مجال «تعلم الآلة». 


"5" تعلم الآلة 

تعلم الآلة (عصنصصدع.]آ عمنطاءة]32) يعنى بتطوير خوارزميات قادرة على تحليل 
البيانات والتعلم منها لتحسين أدائها في مهمة محددة» كاتخاذ قرارٍ معيِّنِ أو تصنيف شيءٍ 
ما. وبعد بناء برامج تعلم الآلة» فإنها تمر بمرحلة تدريب لواتمكل عزريانات كثيرة 
مصنفة بشريا لتكسب خوارزمية تعلم الآلة القدرةً على تعلم تنفيذ نفس المهمة لاحقا 
على بيانات جديدة غير مصنفة. وهناء يبدأ الباحثون باختبار أداء الأنظمة (عمناوع1) 
بعرض بعض المدخلات على الخوارزمية المدربة ومقارنة النتيجة التى تعطيها هذه 
الخوارزن# بالتصوف لجع فا 1 

لتوضيح هذا التعريف دعونا نضرب مثالا لخوارزمية لديها القدرة على تحديد نوع 
الفاكهة التي تظهر في صورة ما. في كل مرحلة؛ تأخذ هذه الخوارزمية صورة لإحدى 
الفواكه كمدخل. في المرحلة الأولى يتم بناء الخوارزمية بحيث تكون قادرة على استقبال 
صور وإعطاء أوسمة محددة كمخرج. ثم تبدأ مرحلة التدريب (8نطنة15) بحيث 
تعطى هذه الخوارزمية عددا كبيرا من صور الفواكه ومع كل صورة تعطى اسم الفاكهة 
التي تظهر في تلك الصورة» فتقوم الخوارزمية بتحليل كل صورة من أجل إيجاد علاقة 
بين الصورة ونوع الفاكهة المرفق معها (كالشكل أو اللون أو الحجم) حتى تتمكن 
الخوارزمية من إيجاد علاقة مطردة بين الصور وأسمائها أو أوسمتها. ثم تبدأ مرحلة 
الاختبار (185]138) للخوارزمية بأن تعطى بعض الصور الجديدة (أي صور لم تستخدم 
في مرحلة التدريب) لفواكه من نفس الأنواع التي تم تدريب الخوارزمية عليها؛ ومن 
ثم» يتم تقييم الخنوارزمية وحساب دقتها بتحديد نسبة التصنيفات الصحيحة في مجموعة 
الصور التي أعدت للاختبار ()56 وصتاوهء1) . 


-١8ةا/-‎ 
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لقد استطاعت خوارزميات تعلم الالة فتح آفاق واسعة لتطبيقات لم تكن ممكنة 
بخرارزسات الترمز البدوى السابقة كمحركات البك» .يحض التطبيقات الطييةة 
والعسكرية» والأمنية» والتجارية» وغيرها .]١١[‏ 

يوجد عدد كبير من خوارزميات تعلم الآلة التي تتبع مناهج مختلفة» مثل: شجرة القرار 
(ع] دمزواءء10)» وبرجة المنطق الاستقر ائي (133331731118ع 710 عاع 10 عتكتأعددلم1])» 
وخوارزميات المراكمة (01115]61128)» و التعلم المعزز (عصمتصتوعا خمعصمعءء1مخماع ]1 ), 
والشبكات البايزية (2610115 مهاوء:8233)» وشعاع الدعم الآلي (1766]01 01م متاك 
©2212610). ويمكن تصنيف هذه الخوارزميات عموما إلى مجموعتين رئيسيتين: 
٠‏ التعلم تحت الإشراف (عسنتسيدع.آ لععتحء من5) وفيه يتم تدريب خوارزمية 
تعلم الآلة باستخدام بيانات تم وسمها وتصنيفها مسبقا ى) في مثال الفواكه 
السابق: 
ك0 التعلم دون إشراف (عسنسصتدع.آ 0ء5ارءمناومنا): وفيه تجمّع الخوارزمية 
البيانات المتشامبة إلى مجموعات ومن تطبيقاتها اكتشاف وتصنيف الأشخاص 
ذوي الاهتمامات المشتركة في وسائل التواصل الاجتماعي ٠١1‏ ]. 
ومن بين مناهج تعلم الآلة» ظهرت الشبكات العصبية الاصطناعية لمحاكاة عقل 
الإنسان في بنيته وطريقة عملهء إذ إن عقل الإنسان يحوي ١5-١4‏ مليار خلية عصبية 
(أو «عصبونات») مرتبط بعض منها ببعض. 

؟" و” الشبكات العصبية الاصطناعية 

الشبكات العصبية الاصطناعية ([ الى .81615011 21تتاء] 121عقتتتث) يي 
من منهجيات تعلم الآلة مستوحاةً من الخلايا العصبية. يوضح الرسم التوضيحي ” 
دماغ الإنسان بشكل مبسط. حيث يمكن للخلايا العصبية الاتصال بخلايا عصبية 
مجاورة. 
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الرسم التوضيحي (3): الشبكة العصبية الاصطناعية متعددة الطبقات. كل دائرة تمثل خلية 
عصبية والأسهم تمثل الوصلات بين هذه الخلايا. 
وكذلك فإن الشبكات العصبية الاصطناعية تتكون من طبقاتٌ و وصلات لنشر 
البيانات» أو أوزان مُدحَلاتِ تحسب في مرحلة التدريب ثم يتم تحديدٌ الناتج أو 
التصنيف عبرها أثناء الاستعمال. (أنظر الرسم التوضيحي ٠”‏ حيث تتصل كل خلية 
بجميع خلايا الطبقة التى تسبقها). 


طبقة الإدخال 


طبقة الإخراج 


أع/او! أنام أنه 


الفلقة النخضة " “اعلاةا أناحصططا 


علاق| معللاط 
الرسم التوضيحي (23): الشبكة العصبية الاصطناعية متعددة الطبقات. كل دائرة تمثل خلية 
عصبية والأسهم تمثل الروابط بين هذه الخلايا. 
ترق سخ ة انعسي الاسطنات) حك هر برطي وبال الدرطي لاهن 
مجموعة من الخلايا العصبية المرتبة ضمن طبقات الإدخال (27:61.]آ أنامم1) والإخراج 
(3(/6.آ نام011) وطبقة أو أكثر من الطبقات الخفية (111006 13(:615آ). 
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وتعتبر الشبكات العصبية بالدخل الأمامى 2650110 21تتاعط كته ترهظ لعع"1) 
إحدى أشهر الشبكات العصبية الاصطناعية 1 سميت بهذا الاسم لأنها تعتمد مبداً 
الانتشار الأمامي حيث يكون مخرج كل طبقة هو المدخل للطبقة التي تليها فيكون مخرج 
جميع عصبونات أي طبقة دخلا لكل عصبون في الطبقة التي تليها. وبزيادة الطبقات 
الخفية وتطوير خوارزمياتهاء ظهر ما يسمى بالتعلم العميق. 


*- التعلم العميق وسر نجاحه 

إن مصطلح التعلم العميق (631108.آ مء126 أو 201) اختصار لمصطلح شبكات 
التعلم العميق (101111[ .126]1011685 2611181 ممعء1(6). فإن شبكات التعلم العميق ماهى 
إلا شبكات عصبية اصطناعية (!118 .72160115 21613181) ولكنها تحتوى على عدد 
كبير (أكثر من ١5١‏ طبقة في بعض الحالات) من الطبقات الخفية (3(/615.آ 1110062) 
[7]. 

تؤدي هذه الزيادة في الطبقات الخفية لشبكات التعلم العميق إلى زيادة تعقيد عملية 
التدريب ويتطلب قدرا أكبر من البيانات لتدريبها. وفي مقابل هذه الصعوبة في التدريب 
فإن الشبكات العصبية العميقة تتميز بالقدرة على تعلم المدخلات بدون الحاجة لتحديد 
ملامح (وعتتنطوء*1) فديقاً خلافا لأكثر خوارزميات تعلم الآلة الأخرى. 

تقوم الطبقات الأولى في خوارزميات التعلم العميق تلقائياً بعمليات تنوب عن 
تحديد وتعلم الملامح بدقة عالية. وبالإضافة لذلك فهي من أفضل الخوارزميات التي 
تمكن الآلة من تعلم مستويات مختلفة من ملامح البيانات. 

فمثلا لو فرضنا أن المدخل للشبكة العميقة صورة: فإن الطبقة الأولى قد تركز على 
تحديد أماكن الحواف (180865) في الصورة في حين تركز الطبقة الثانية على تحديد أماكن 
الزوايا فيهاء وهكذا إلى أن تتمكن بعض الطبقات من تحديد الشكل الموجود في الصورة. 

هذا الأمر جعل تصميم أنظمة التعلم بتقنية التعلم العميق أسهل لأنها لا تتطلب 
الخبرة اللازمة لتحديد ملامح المدخلات» وهو ما قد يعد أهم مراحل خوارزميات 
تعلم الآلة وأكثرها تأثيراً في نتائجها. 


و ه60١-‏ 
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لذاء فإن أحد أهم أسباب نجاح خوارزميات التعلم العميق أنها لا تعتمد على 
خصائص ثابتة ومحددة مسبقاً ىا هو الحال في جميع خوارزميات تعلم الآلة الأخرى. 
ولكنها تتعلم الخصائص المهمة من البيانات أثناء مرحلة التدريب. غير أن نجاح 
خوارزميات التعلم العميق يقوم بشكل أساسي على توفر قدر كبير جداً من بيانات 
التدريب. 

يرجع نجاح تقنية التعلم العميق لعدة عوامل منها تطور بعض تقنياتها وخوارزمياتها 
الحالية مثل الشبكات العصبية الالتفافية (2165/011 2161121 00250111110021) التى 
ساعدت في تقليل التكلفة الحسابية للشبكات العصبية الاصطناعية كثيرا؛ يا سنوضحه 


> 


قريبا. 

كذلك من العوامل التي أسهمت في هذا التطور بشكل كبير توافر وحدات معالحة 
الرسومات (112115 21066551528 013215165) ذات القدرات الحسابية الحائلة» والتي 
جعلت المعالجة المتوازية أسرعَ وأرخصٌ وأكنرٌ قوةَ من أي وقتٍ مضى. 

من أسباب نجاح التعلم العميق أيضاً توفر كميات كبيرة من البيانات» فقد توفرت 
مؤخراً كميات هائلة من البيانات وصار بالإمكان جمعها وتخزينها بشكل أسهل 
وأرخص بكثير من السابق. فهذا التطور ال هائل في وحدات التخزين والتدفق ال حائل 
للبيانات من كل حدب وصوبء. وبكل أنواعها (الصور والنصوص والمعاملات 
والخرائط... إلخ)؛ لعب دوراً كبيراً في نجاح تقنية التعلم العميق حيث أن كفاءة التعلم 
تزداد بشكل مستمر مع زيادة كمية البيانات المستخدمة في مرحلة التدريب. ى) يجليه 
الرسم التوضيحي رقم 5. 
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680109 م066 


التعلم العميق 


5 وبتناعل١!‏ انعلا 


الشبكات العصبية 


الكفاءة 01731706]مع6ه5 


12010021 
وقأتقع ا عوأاطعةلا 
خوارزميات تعلم 
الآلة التقليدية 


حجم البيانات المستخدمة في التدريب 2 02123 


الرسم التوضيحي (5): مقارنة بين خوارزميات تعلم الآلة من حيث العلاقة بين الكفاءة وكميات 
بيانات التدريب [؟1١].‏ 


؛ - أبرز تقنيات التعلم العميق 

ثمة عدة تقنيات للتعلم العميق» تعتمد على نوع الشبكة العصبية التي تنبني منهاء 
وني هذا الفصل نعرض تقنيات التعلم العميق الحديثة التي حققت نجاحا كبيرا وانتشارا 
واسعاً ونعرج على أسباب نجاحها. 


١‏ , 5 الشبكات العصبية الالتفافية 

الشبكات العصبية الالتفافية ©55011؟721 1تتناء]ة 0081نآهكمه© أو 012111 
اختصاراً) هي نوع خاص وهام من أنواع الشبكات العصبية العميقة قدمها العالم 
منانععآ صصقئا عام 1994م 171 ]. يعتبر هذا النوع من الشبكات العصبية حلا للكثير 
من مشاكل الرؤية الحاسوبية (715100 اع ]ناماه 0) والتي هي فرع من فروع الذكاء 
الاصطناعي يعنى بتطبيقات معالجة الصور ومقاطع الفيديو وتحليل محتوياتها. 

تقوم الفكرة الأساسية لهذا النوع من الشبكات على استبدال طبقات الاتصال 
الكامل (1.33/615 0عاء00026) '1"0117) التقليدية بالطبقات الالتفافية (0005701116100© 
5 ففي هذا النوع من الشبكات تتأثر كل وحدة في الطبقات الالتفافية بعدد 
محدود من وحدات الطبقة السابقة؛ كا في الرسم التوضيحي 5. 
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إن فكرة الطبقات الالتفافية مستوحاة من عملية الطى أو الالتفاف الرياضية 
(00250111100)) وهى عميلة رياضية تستعمل في 56 دالة مخرجة من دالتين 
مدخاتين وسشخدم هذه الأداةالرياضية اق الكدير من تطيقات بعالكة الضور. وتقوم 
طبقة الالتفاف بتطبيق عملية الالتفاف الرياضية على عناصر الدخل (عصبونات الطبقة 
السابقة أو المدخلات) لحساب قيمة الوحدة في الطبقة التالية. 


أعثزقا أقدمهتأ اموه لمع مم6 براان؟ 


- 


الرسم التوضيحي (5): اتصال الطبقة الالتفافية (يمين) والاتصال الكامل (يسار) .]١4[‏ 


" و5 الشبكة العصبية المتكررة 

الشبكات العصبية المتكررة 716650110 581ناء1! 1604:ناه 6 أو 21111 اختصار 4 
من أنواع الشبكات العصبية الاصطناعية والتي تتميز بأنها تتضمَّنُ حلقاتٍ راجعة 
داخلّ الشبكة ما يُعطيها مفعول الذاكرة» فعلى العكس من الشبكات العصبية بالدخل 
الأمامى 2167011 31ناء11 201310 1660) فإن الشبكات العصبية المتكررة تأخذ 
العلا عل قف مر اسل أ رحوراات راس قن سود ر لاك وزد وى حلتاك 
تعود بالمخرج من الدورة السابقة للخلف بحيث يكون مدخلا للدورة التالية. هذه 
الخاصية تعطي الشبكة القدرة على تذكر نتيجة المرحلة الماضية وبالتالي الاستفادة منها 
في المرحلة التالية. هذه الخاصية مهمة جداً في التطبيقات التي تعتمد على الترابط الزمني 
بين المدخلات. فعلى سبيل المثال فإن معنى المقطع الصوتي في تطبيقات تحليل الكلام 
في أي مرحلة يعتمد بشكل كبير على الكلمات السابقة. في مثل هذه التطبيقات تعتبر 
الشبكات العصبية المتكررة الحل الأمثل. وينبغي التنويه إلى أن تدريبَ الشبكاتٍ 
العصبية المتكرّرة مُكلفٌ أكثر من الشبكات العصبونية الالتفافية. الرسم التوضيحي 
نين غخطط الشيكات العضيية المتكررة: 


“ام ات 
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الرسم التوضيحي (5): تخطيط الشبكات العصبية المتكررة وتمثيل بسطها زمنيا [18]. 


“,و ؟ شبكات الذاكرة قصيرة-المدى الطويلة 

أحد أهم عيوب الشبكات العصبية المتكررة أنها لا تستطيع التذكر لمدة طويلة. لحل 
هذه المشكلة تم تطوير شبكات الذاكرة قصيرة-المدى الطويلة (7تاء1'-51016 1008 
1612013 أو 1.5121 اختصارا) نوع خاص من الشبكات العصبية المتكررة 100/21 
مصممة لتخزين نتائج المراحل السابقة لمدد أطول. هذا النوع من الشبكات تمكن من 
تحقيق نتائج أفضل في الكثير من التطبيقات التي تعتمد على ترابط المدخلات لمدة طويلة 
.]١ 5‏ 


؟ و ؛ شبكات الخصومة التوليدية 

شبكات الخصومة التوليدية (70115ات81 131تهددمء حل عاكللةاعمهء0 أو 4115 
اختصارا) شبكات عصبية عميقة تتألف الواحدة منها من شبكتين متخاصمتين بحيث 
أن الأولى (وتسمى المولدة (862618605)) تسعى لتوليد بيانات تشبه البيانات الحقيقية 
بشكل كبير» في حين أن الثانية (المميزة (01501321081401)) تحاول أن تكتشف إن كانت 
البيانات المولدة حقيقية أم مزورة» وبعد كل دورة تتعلم كل شبكة وتتطور في مهمتها. 
فمثلآء يمكن للشبكة المولدة أن تأخذ صورة لإنسان مرسومة باليد وأن تولد منها صورة 
معدلة تشبه الأصلية. وعند إدخال الصورة المعدلة للشبكة المميزة» فإن هذه الأخيرة 
تسعى للحكم على الصورة بأنها حقيقية أو مزورة. ومع التدريب تصبح الشبكة المولدة 
قادرة على انتاج صورا تشبه الحقيقية إلى حد كبير؛ أنظر إلى الرسم التوضيحي . 
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30 أمماءءوزم 1 ع5 ولقأمأة 1 
| عر 0 


ع ما تان 
0015 


يلد 0 180 مع 6 
الرسم التوضيحي (7): مخطط عمل شبكات الخصومةلصور أرقام مكتوبة بخط اليد ١111‏ ]. 
إن إمكانات شبكات 0411© ضخمة؛ لأنها يمكن أن تتعلم محاكاة أي توزيع 
للبيانات. وهذا يعني أنه يمكن تعليم الشبكات العصبية إنشاء عوالم تشبه بشكل مخيف 
عالمنا في أي مجال: الصورء الكلام .تم تقديم 6.4118 في ورقة [18] من إعداد ه19 
0000161107 وباحثين آخرين في جامعة مونتريال» في عام 5 ٠١ ١‏ 


هو ؛ شبكة التشفير الآلى 

تشبه شبكة التشفير الآلي 00 شبكات الخصومة التوليدية حيث إنها 
اكرن مد شعين عصيين: الأول هي شبكة التشفير (82060061) وتقوم بتحويل 
المدخل إلى تمثيل مضغوط (1160765621200 165560م0022) والشبكة الثانية هي 
شبكة فك التشفير (10600061) وتسعى لإعادة تكوين بيانات الإدخال من خلال قمثيلها 
الخفي فقط. يتم تدريب كل من هاتين الشبكتين في نفس الوقت بحيث أن الأولى تحاول 
انتاج تمثيل مخفي يحوي جميع خصائص المدخل ما يمكن شبكة فك التشفير من استرجاع 
المدخل باستخدام ذلك التمثيل المخفي. بعد انتهاء مرحلة التدريب يفترض أن نصل إلى 
تمثيل مضغوط يقوم بتمثيل المدخل بشكل دقيق؛ انظر الرسم التوضيحي 8. 
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أنام 110 
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الرسم التوضيحي (8): توضيح طريقة عمل شبكة التشفير الآلي .]١9[‏ 
إحدى فوائد هذه الشبكات أنها تعمل على الحد من حجم المدخلات؛ أي أن حجم 
التمثيل المضغوط يكون أقل بكثير من حجم البيانات الأولية. فبدلاً من استخدام 
الصورة ذات ا حجم الكبير يمكن استخدام التمثيل المضغوط الذي يقوم مقام هذه 
الصورة في الكثير من التطبيقات. 


ه-أهم تطبيقات التعلم العميق في خدمة اللغة العربية 
في هذا الفصل» نعرض بعض تطبيقات تقنية التعلم العميق في خدمة اللغة العربية 
لتحفيز الجهود في هذا المجال حتى تتطور التطبيقات وتصل إلى مرحلة تمكن من 
استخدامها في حياتنا اليومية. ورغم أن تطبيقات تقنية التعلم العميق في خدمة اللغة 
العربية مازلت في مرحلة ابتدائية لم تنضج فيها الخوارزميات المتوفرة لدرجة تؤدي إلى 
تطبيقات فعالة ومفيدة للمجتمع واللغة» إلا أنه من الصعوبة بمكان استقصاء جميع 
الجهود التى بذلت في هذا المجال. لذلك فإننا نعرض في هذا الفصل بعض الأبحاث 
المهمة ذات العلاقة با موضوع ومن أراد الاستزادة فننصحه بالرجوع إلى بعض الأبحاث 
الموسعة باللغة الإنجليزية مثل ١١1‏ ]. 
ومن الجدير بالذكر أن هناك فروق متعددة بين تقنيات تعلم الآلة التقليدية وتقنيات 
التعلم العميق. من هذه الفروق على سيبل المثال: 
* أن تقنية التعلم العميق لا تتطلب خبرة كبيرة في محال تعلم الآلة على عكس 
تقنيات تعلم الآلة التقليدية التي تتطلب خبرة كبيرة حيث إنه يقع على عاتق 
الباحث -في معظم الأحيان- تحويل البيانات الخام إلى ملامح يمكن التقنيات 
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التقليدية التعامل معهاء أما تقنيات التعلم العميق فإنها تتعامل مع البيانات 
الخام بشكل مباشر دون الحاجة لتحويلها إلى تمثيل آخر. هذا الأمر أدى إلى 
سهولة استخدام تقنية التعلم العميق. 

* نتائج التعلم العميق في خدمة اللغة العربية وغيرها أثبتت تفوقا على تقنيات 
تعلم الآلة التقليدية. فعلى سبيل المثل في مجال التعرف على الأحرف العربية 
المكتوبة بخط اليد. استطاعت تقنية التعلم العميق تحقيق نتائج غير مسبوقة. 


١‏ وه تطبيقات التعلم العميق ني مجال تحليل اللغة العربية الطبيعية 

تحليل اللغات الطبيعية (8700655128 122811886 721361131) هو مجال يعنى 
بالتفاعلات بين الحاسب الآلي والإنسان من خلال اللغات الطبيعية التى يستخدمها 
الناس في حياتهم اليومية. في [11]: اقترح الباحثون نموذجا لغويا (6هقناوسةا 
120061) على مستوى ال حرف يقوم بتعيين قيمة محتملة لكل سلسلة من الحروف عن 
طريق التوزيع الاحتالي. الجديد في هذا البحث أنه آتى نتائج كانت بالعادة تحتاج لنماذج 
على مستوى الكلمات. يطبق البحث الشبكات العصبية الالتفافية 01113 على أحرف 
الإدخال قبل إدخاها إلى الشبكات ذات الذاكرة قصيرة-المدى الطويلة /5127-.آ. تم 
تطبيق هذه الخوارزمية على لغات من ضمنها اللغة العربية. وهذه الخوارزمية متاحة 
للتنزيل والاستخدام [77]. 


؟ و6 تطبيقات التعلم العميق في مجال التعرف على الكلام العربي المنطوق 

التعرف على الكلام المنطوق (16100مع16008 اءءهم5) هو مجال يعنى بتحويل 
الكلام المنطوق إلى ترميز حاسوبي نصي. في أحد أول الأعمال التي استخدمت تقنية 
التعلم العميق في مجال التعرف على الكلام العربي المنطوق [177]» استخدم الباحثون 
الشبكة العصبية المتكررة للتعرف على الأرقام العربية المنطوقة. تكونت شبكتهم 
العصبية المقترحة من طبقتين خفيّتين وكان أداؤها جيدًا لبيانات عدة متكلمين. 

البحث [4 1] قدم أفضل حل للتحدي الذي تم اطلاقة عام 7١ ١1/‏ باسم «-141نا]/7 
020354 0616)) والذي تضمن مجال التعرف على المنطوق. استطاع المؤلفون تحقيق 
نتائج متازة بمزج العديد من التقنيات الحديثة وعلى رأسها تقنية التعلم العميق» حيث 
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استخدم الباحثون الشبكات العصبية المتكررة مع ناذج لغوية وتقنيات أخرى. ى| 
التعلم العميق للتعرف على الناذج الصوتية العربية وتحقق تحسين للدقة بنسبة /ا, /1١69‏ 
[50]. 

"', 5 تطبيقات التعلم العميق ني مجال التعرف على الحروف العربية المكتوبة 
يعتبر استخدام تقنية التعلم العميق في مجال التعرف الضوئي (الآلي) على النصوص 
العربية ( هتمع مءع18 831230161© 921ه م0 أو +001) من أكثر بحالات خدمة اللغة 
العربية انتشاراءوإن كان ما زال ثمة محال للتحسين باستخدام هذه التقنية القوية. في 
الكتابة» تختلف العربية عن اللغات الأخرى بخصائص منها: 

٠‏ اتجاه الكتابة في اللغة العربية من اليمين إلى اليسار على عكس اللغات اللاتينية. 

؟ شكل الحرف العربي يعتمد على اتصاله بها حوله. 

* طبيعة اللغة العربية مختلفة في الاشتقاق والصرف والنحو والتشكيل وغير ذلك. 

؟ بعض الحروف متشابهة لحد كبير حيث تختلف في بعض الأحيان في عدد أو 

مواضع النقاط فقط. 

هذه الخصائص وغيرها لها تأثير كبير على الأساليب التى يجب أخذها في عين الاعتبار 
عند دراسة وتصميم خوارزميات التعرف الآلي على النصوص العربية المكتوبة. لذلك 
فإنه ليس من الممكن دائ| تطبيق الخنوارزميات المصممة للتعرف على كتابات لاتينية أو 
صينية -دون تعديلها- على نص عربي. 

وبالرغم أن هذا المجال تم بحثه منذ سنوات عديدة من خلال تطبيق تقنيات تعلم 
الآلة التقليدية إلا أنه لم يبحث بشكل كاف بتقنيات التعلم العميق خصوصاً الجديد من 
هذه التقنيات. علاوة على ذلك» فإن بعض المشكلات المتعلقة بمجال التعرف على 
النصوص العربية لم يتم معالجتها باستخدام تقنية التعلم العميق حتى الآن من هذه 
المعجالات على سبيل المثال التعرف على كاتب النص (681100 10601416 1ع1111) [1 ١‏ ]. 

تقدم [717] نظرة عامة حول مجال التعرف الضوئي على الحرف العربية المكتوبة بخط 
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اليد. ى) أنها تلخص التحديات التقنية الرئيسية المتعلقة بخصائص اللغة العربية. يحاول 
هذا البحت أبقا ابكتضاو الضورثف القغاتة مجعال العرق الضوض سل الروك 
العربية المكتوبة باليد والتى نشرت في عام 5١٠٠م‏ وما قبله. ْ 

في عام 7٠١11‏ قدم الباحث شوقي بوفنار وزملاؤه [1] عملاً استخدم فيه الشبكة 
العصبية الالتفافية العميقة للتعرف على صور الأحرف العربية المكتوبة بخط اليد. 
أظهرت نتائج البحث دقة تصل إلى 917,777 [191]. 


وعرض البحث ]"١[‏ نتائج ممتازة في التعرف على حروف واحدة من مجموعات 
البيانات المهمة والمعروف باسم 11147719 [1”1]) التي تحتوى على أنماط متنوعة 
من النص المكتوب بخط اليد» وحقق أداءً متميزا من خلال تطبيق شبكات الذاكرة 
قصيرة-المدى الطويلة (1:5120) متعددة الاتجاهات. لقد تمكن باستعمال تقنية التعلم 
العميق والمعالجة المسبقة من تحسين النتائج من 57,١1‏ / إلى 8 و 0 1./. 
كما قام الباحث أحمد الصاوي وزملاؤه [1؟77] ببناء شبكة عصبية التفافية وتطبيقها 
للتعرف على الحروف العربية المكتوبة بخط اليد. استخدمت صور وبيانات ١58٠٠‏ 
حرف في تدريب واختبار الشبكة لتتمكن من تحيقيق دقة تصل إلى 4 , 5 9/. 
5- الخاتمة 

عرض هذا البحث مقدمة مبسطة للتعريف بتقنية التعلم العميق وأهم ما يرتبط 
بها من العلوم والمصطلحات» وعرض باختصار عددا من تقنيات التعلم العميق التي 
حققت شهرة واسعة ونتائج مبهرة. ى] سعى للحث عبر أمثلة تطبيقية ناجحة للتقنية 
على استخدمها في خدمة اللغة العربية. ىا يُرجى لهذا البحث أن يكون نقطة انطلاق 
للتأليف -بالعربية- في مجال التعلم العميق هذا المجال الجدير بالعديد من المؤلفات. 

أظهرت تطبيقات التعلم العميق في معالجة اللغة العربية طبيعيا والتعرف على الكلام 
المنطوق والمكتوب فاعلية رغم من أنها لم تستغل -بعد- بالشكل المرضي. نوصي في 
ختام هذا البحث بالاهتام هذه التقنية التي نتوقع لما نجاحا في الكثير من المجاللات 
وعلى رأسها خدمة اللغات الطبيعية. 
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باستخدام التعلم العميق 


أ. غريب واجب غريبى 


0> 
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شاعر بلا مشاعر: تجرية 2 الشعر العربي الآلي 
باستخدام التعلم العميق 


أ. غريب واجب غريبي7" 
دف في بحثنا هذا إلى تسليط الضوء على علم معالجحة اللغات الطبيعية 71860581 
726 علازووء2:00 أو 211.5 باعتباره أحد أهم بجالات الذكاء الاصطناعى 
161115626 8111121 .» وسنركز بخاصة على استخدام خوارزميات التعلم العميق 
8م مءت(1 فيه لمحاولة محاكاة نصوص الشاعر العربي نزار قباني. 
ونستعرض ف هذا البحث ماهية علم معالحة اللغات الطبيعية مع إعطاء نبلذة 
تاريخية عن نشأته ومراحل تطوره. ثم نعرج على أهم تطبيقات هذا الا 


الآلية» وتحليل المشاعر والآرا. وأنظمة الإجابة التلقائية وغيرها. ى) : نستقصي أهم 
الموضوعات الفرعية المندرجة تحت مبحث معاحة اللغات الطبيعية كتصنيف» وتقطيع» 
وإعراب» وفهم, وتوليد النصوص. 


إضافة إلى ذلك فإننا نشرح أساسيات التعلم العميق وكيفية استخدامه في محال 
معالجحة اللغات الطبيعية. ومن ثم نستعرض كيفية استخدام الشبكات العصبية المتكررة 
156 7161121 1604ناه6 1 لتوليد نصوص عربية آلياء حيث نستخدم توليد 
الشعر العربي الحر كدراسة عملية لهذا الموضوعء, فنشرح ذلك -خطوة خطوة- في 
الفصل الأخير من البحث. 

كا أننا نركز على تبيان الأبحاث والأدوات مفتوحة المصدر لمعالحة اللغة العربية 
عموماً. وذلك من أجل تعريف القارئ بأهم التقنيات واخارنيات والطرق 
المستحدثة لجمع» وقثيل» وتحليل اللغات الطبيعية مع الإشارة إلى بعض المراجع 
للحصول على معلومات تفصيلية في كل موضوع. 
١‏ - باحث مساعد في مركز التعلم الكبير التابع لمؤسسة العلوم الوطنية الأمريكية 71517 ومحاضر في أمن وخصوصية تعلم 

الآلة» وطالب دكتوراه في جامعة ميزوري بمدينة كانساس الأمريكية ©11/116. حصل م. غريبي على درجة الماجستير 


مع مرتبة الشرف الأولى في تخصص هندسة البرمجيات من جامعة ميزوري بمدينة كانساس» وهو ناشط شغوف في 
تطوير وإثراء المحتوى العربي للذكاء الاصطناعي. 


عو اب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


١‏ - مقدمة 
خلق الله الإنسان وميزه عن باقي مخلوقاته بالعقل» وخلق -سبحانه وتعالى- شعوباً 
وقبائل لكل منها عاداتها وتقاليدها ولغتها التي تميزها عن غيرهاء حيث بينت بعض 
الدراسات الحديثة [1] أن عدد اللغات الطبيعية (لغات البشر) حول العالم يتتخطى 
الستة آلاف لغة. ومع التطور التقني الحائل في كافة مجحالات وعلوم الحاسب الآلي 
والتقنية» ظهر علم معالجة اللغات الطبيعية الذي يسعى لتمكين الحاسب من فهم 
ومعالجة وتحليل اللغات الطبيعية لتسهيل الكثير من المهام إلكترونياً في كافة جوانب 

الحياة. 


١‏ التعريف ونبذة تاريخية 

علم معالحة اللغات الطبيعية 271066855118 1:311811886آ 11360131 أو 111.2 هو علم 
تطبيقي يعنى باستخدام تقنيات الحاسب الآلي» وعلى رأسها خوارزميات تعلم الآلة 
9 0000 ا علوم اللغويات 110811156105 بحيث يصبح الحاسوب 
قادر على تمثيل وتحليل وتوليد النصوص المكتوبة والمقروءة باللغات الطبيعية كالعربية 
والإنجليزية. 

ومع التطور الحائل في جميع مجحالات الحاسب الآلي واستخدامه في أتمتة الكثير من 
المهام المتكررة» كفهرسة مواقع الإنترنت والرد على العملاء وتحليل آرائهم» أصبح 
لتقنيات معالجحة اللغات الطبيعية دوراً هاماً في الكثير من التطبيقات التى تعتمد على 
فهم اللغات الطبيعية وتفاعل المستخدمين مع الآلة» كمحركات لحف والترحمة 
الآلية» والتلخيص الآلي» وأنظمة الإعلانات الذكية» وتصنيف المواضيعء وتنقية البريد 
الإلكتروني من الرسائل الضارة» وتحليل المشاعر وقياس الرأي العام؛ وتوليد النصوص 
ذات المعنى المترابط والمفهوم. 

يمكننا تتبع تاريخ نشأة علم معالجة اللغات الطبيعية إلى خمسينيات القرن الماضي 
بعد وقت قصير من ظهور الحاسب المعروف باسم عمتاعة81 عصتتنا1 [؟] نسبة إلى 


-١‏ الأتمتة (80ده4110): مصطلح مُعَرَّبٍ يدل على تحويل العمليات التي تتطلب تدخل البشر إلى عمليات آلية لا 
تتطلب تدخل البشر. ونعني بها في هذا السياق تطوير برمجيات آلية لا تتطلب تدخل الخبراء لإتمام المهمة. 
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مصممه العالم الشهير آلن تورينغ» والذي توجه اهتامه إلى إنشاء برمجيات ذكية تحاكي 
ذكاء الإنسان. وبالفعل قام في عام ٠10١م‏ باقتراح اختبار تيورنغ 1656 08لت,نا1 [7] 
للحكم على ذكاء الحواسب من خلال قدرتها على الإجابة بلغة طبيعية على الأسئلة دون 
قدرة الحكم على تمييز أبا صادرة من حاسب. 

ومع تزايد الاهتمام في معالجة اللغات الطبيعية» ظهرت إحدى أولى تطبيقاتها في 
جامعة جورج تاون لترجمة عبارات بين اللغتين الروسية والإنجليزية [15-5]. لتتوالى 
بعد ذلك تطبيقات كأنظمة إجابة الأسئلة [17-5]» وأنظمة تطوير وفهم الحوار [/- 
4 وأدوات تقطيع الكلام وتحديد أصنافه وإعراب الجمل »]1١1-١١[‏ وتطبيقات 
التلخيص الآلي »]1١5[‏ وأنظمة استرجاع البيانات »]١01[‏ وموخراً ظهرت تطبيقات 
فهم وتحليل المشاعر والآراء والتي تزامن ظهورها مع انتشار مواقع تقييم المتتجات 
والخدمات على الشبكة العنكبوتية (الإنترنت) ١972-1١51‏ ]. 

وكانت أغلب هذه التطبيقات تعتمد على قوانين تصاغ يدوياً من قبل الباحثين ثم 
تترجم إلى إحدى لغات البرمجة وتعطى للحاسب من أجل تنفيذها. ولكن هذه الطريقة 
كانت تتطلب فههم| عميقا للغة وقواعدها ومعانيها بالإضافة إلى الجهد الكبير لتغطية 
الحالات المختلفة؛ إلى أن ظهرت تقنيات تعلم الآلة في أواسط الثانينات »]7١-١4[‏ 
حيث تراجعت الطرق اليدوية السابقة لصالح الطرق الإحصائية التي تترك للحاسب 
عملية استنباط وتعلم قوانين اللغة بشكل آلي» وذلك من خلال الاطلاع على كميات 
هائلة من النصوص واستنباط العلاقات المتكررة بينها إحصائياً. وأدت أتمتة هذه الطرق 
إلى تركيز الباحثين على تحويل النصوص إلى صيغ إحصائية تتمثل فيها أهم خصائص 
وأناط اللغة المتكررة. كى) وجدت طرق هجينة تعتمد على الطرق اليدوية لعمل أنظمة 
خبيرة ومن ثم تضمينها مع تقنيات تعلم الآلة ما أدى إلى تطور تقنيات معالحة اللغات 
الطبيعية. 


ثم نشطت-مؤخراً- خوارزميات التعلم العميق والتي أثبتت قدرتها على معاجلة 
اللغات الطبيعية بشكل يفوق خوارزميات تعلم الآلة السابقة» بم| فيها الحجينة» وبدون 
الحاجة لصياغة النص بشكل إحصائي؛ حيث تعتمد هذه الخوارزميات على بناء شبكات 
عصبية اصطناعية 716650115 1181ا716 411160131 يمكنها استنباط القواعد والآنماط 
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بشكل آلي وبدقة عالية من خلال الاطلاع على كمية كبيرة من النصوص دون الرجوع 
لقواعد اللغة» ى] نبين ذلك في الفصل الثاني. 


أهم تطبيقات معالجة اللغات الطبيعية 

قبل التطرق للوظائف”" الرئيسية لعلم معالجة اللغات الطبيعية» نسرد في هذا 
الفصل بعض أهم تطبيقات”" معالجة اللغات الطبيعية وبخاصة تلك التي نرى وجوب 
الاهتمام بها من قبل الباحثين والمبرمجين المهتمين بإثراء معالجة اللغة العربية. 

١.١‏ الترحمة الآلية مناه اوصدء؟ عسنطعه31 

لا تخفى أهمية المترجمات الآلية في حياتنا اليومية» إذ هي من أهم -إن لم تكن أهم- 
تطبيقات معالجة اللغات الطبيعية. وى ذكرنا في مقدمة الباب» فإن ترجمة النصوص 
من اللغة الإنجليزية إلى اللغة الروسية كانت أولى خطوات المجال. ومن الأمثلة الأكثر 
شيوعاً للمترحمات المستخدمة على الإنترنت محرك الترجمة 512146مة:]' عاع000 من 
شركة قوقل ومحرك الترحجمة 8108 من شركة مايكروسوفت. وأول ما بدأت» كانت 
خوارزميات الترجمة الآلية تتطلب فهماً عميقاً للغات الطبيعية وجهداً كبيراً لتحويلها إلى 
برمجيات حاسب آلي. وفوق ذلكء» فقد كانت دقة وفعالية هذه البرمجيات ضعيفة جداً. 
ولكن مع انتشار تعلم الآلة -وخاصة التعلم العميق مؤخراً- أصبحت خوارزميات 
الترجمة الآلية ذات فعالية أكبر وامتدت إلى لغات عديدة» وأصبحت تستفيد من الكم 
امهائل من النصوص التي يتم إنتاجها بلغات عديدة يومياً على شبكة الإنترنت. وشهدت 
الترجمة من وإلى اللغة العربية مؤخراً اهتاماً واضحاً كالترجمة للإنجليزية [١؟70-5]»‏ 
وللفرنسية [18-77]. ويمكن الاطلاع على استقصاء للترجمة الآلية من وإلى اللغة 
العربية في [7-154؟]. 


-١‏ الوظائف (13818): المهام أو العمليات. فعلى سبيل المثال» عملية إرجاع الكلمة إلى أصلها تعتبر أحد وظائف معالجة 
؟- التطبيقات (110810525م27ى): الاستخدامات. فعلى سبيل المثال» تحليل المشاعر والآراء يعد أحد أهم تطبيقات 
اللغات الطبيعية. 
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1) 01255162826028 تصنيف النخصوص‎ ١١" 

خوارزميات تصنيف النصوص يمكنها الاطلاع على نص معين وتصنيف محتواه 
إلى موضوعات (كالرياضية» والاقتصادية» والسياسية» وغير ذلك). كثيراً ما يكون 
تحليل النصوص بناءً على خوارزمية «الورودات الأخيرة» 05تهمع-71 الشهيرة (المفردة 
والمزدوجة والثلاثية) والتي تعتمد بشكل عام على تذكر عدد من الكلمات التي تظهر في 
سياق معين ["7772-17]. كم| تعتمد بعض الخوارزميات الأخرى على استخراج مميزات 

حظي هذا المجال ببعض الاهتتام من قبل الباحثين لتصنيف النصوص العربية 
كاستخدام خوار زميات العد .]5١[‏ أو تعلم الآلة [47-47]» وكذلك التعرف الآلي 
(الضوئي) على الحروف [55-55]. ولمن أراد استقصاء الدراسات السابقة لتصنيف 
النصوص العربية الرجوع إلى المرجع [5ع]. 

١,” “*‏ التلخيص الآلى سمناهعتتقسسدك عتأفسرم سم 

تبتم عملية التلخيص الآلي بتلخيص النصوص» كنشرات الأخبار والتقارير 
المطولة» واستنباط خلاصتها بشكل آلي. وتساعد عملية التلخيص الآلي في تسهيل كثير 
من المهام التي تتطلب الاطلاع على خلاصات الكتب والتقارير الطويلة» والبحث عن 
إجابة معينة داخل النص» واختصار الكلام» وتقليل أحجام الملفات النصية مع الحفاظ 
على المعاننٍ والمفاهيم الواردة في النص. 

وعادة مايتم التلخيص الآلي بإحدى طريقتين: التلخيص الاقتبابي 1822610076 
58-١ 03‏ ] والتلخيص الخلاصى 511121121123102 عاكتاعةماوطم 
[101-54]. فالتلخيص الاقتبابي يعمل على تلخيص النص من خلال اقتباس أهم 
العبارات والمفاهيم الواردة فيه بدون توليد أي نصوص جديدة أو اختزال معانٍ غير 
هامة. وبالتالي فإن جميع الجمل الملخصة هي جمل وتعابير موجودة في النص الأصلٍ تم 
تصنيفها من قبل الخوارزمية على أنها مهمة وتلخص الموضوع بقدرٍ كافٍ. 

أما التلخيص الخلاصي فيعمل على توليد نصوص تختصر محتوى ومعنى النص 
الإجمالي باستخدام نص جديد صحيح لغويا وإملائياً. وبالطبع فإن التلخيص الخلاصي 
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يحتاج إلى خوارزميات متقدمة تستطيع فهم النص أولاً ومن ثم توليد نص صحيح 
يلخص النص الأسامي. 

وللتلخيص الآلي في اللغة العربية نصيبٌ من الدراسات التى عملت على محاكاة 
طرق التلخيص في اللغات الأخرى مع الأخل بعين الاغغبار خصائصن اللغة العربية 
وثرائها النحوي [51-65]. 


5 و” و١‏ الإجابة على الأسئلة 41257715 00116561011 4116011121 

تعتبر خدمة الإجابة التلقائية على أسئلة وطلبات الزبائن من أنشط المواضيع في 
مجال معالجة اللغات الطبيعية [/54-51]؛ وذلك لأهمية هذا المجال في سوق العمل» 
وأسواق الأموال» والتجارة الإلكترونية» وغيرها. حيث إن هذه الخوارزميات يمكنها 
أن تؤدي إلى تطوير برمجيات قادرة على فهم سؤال الزبون» سواءً المكتوب أو المنطوق» 
ومن ثم البحث عن الإجابة الصحيحة وإيصاها إما نصاً أو نطقاً. 

واللافت للنظر في هذا المجال هو جودة وكفاءة عملاء الرد الآلي للغة الإنجليزية 
حيث يصعب التفريق بينهم وبين العملاء البشر في كثير من الأحيان. ويظهر ذلك جلياً 
في خدمات الرد الآلي في المتاجر الإلكترونية ومواقع الحكومات الإلكترونية المتطورة. 

ومن الأنظمة التي طُورت للرد الآلي باللغة العربية نظام 0814178 101] والذي 
تم تدريبه على مقالات الصحف العربية وذلك في محاولة لجمع أكبر قدر ممكن من 
المعلومات عن الأحداث» والتواريخ» والشخصيات وغيرها. وشبيه بهذا النظام نظام 
١! 75‏ :]| للرد الآلي على الأسئلة. أما نظام هه:8-.41 [17] فهو نظام تم 
تدريبه على نصوص القرآن الكريم للإجابة على الأسئلة الفقهية والملوضوعات الدينية. 


هه" تحليل المشاعر واكتشاف الآراء ؤزوتإلقصكة أسعسنامءك 

مع التوسع التجاري الحائل في جميع المجالات» وانتشار المتتجات والخدمات المتنوعة 
على شبكة الإنترنت» ظهرت الحاجة إلى مواقع وخدمات إلكترونية لتقييم المتتجات 
والخدمات بكافة أنواعها (كالمطاعم» والفنادق» والمدراس» وحتى الدوائر الحكومية). 
وتتيح هذه الخدمات للمستخدمين كتابة آرائهم وتجربتهم واقتراحاهم للخدمات 
الموجودة بحيث يستفيد منها الآخرون بلغة حرة. لذاء كان لابد لصناع القرار ومقدمي 
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الخدمات التي يتم تقييمها على شبكة الإنترنت من مراجعة هذه التقييمات والمقترحات 
لتحليلها ودراسة سلوك المستخدمين من أجل تطوير الخدمات وتصحيح أخطائها. وهنا 
تكمن أهمية خوارزميات تحليل المشاعر والآراءء حيث إنه يصعب على صناع القرار تتبع 
جميع التقيبمات بشكل يدوي على شبكة الإنترنت» وعليه فإن هذه الخوارزميات تلعب 
دوراً هاماً جداً في تحليل وتلخيص التقييمات بشكل تلقائي وبسرعة فائقة. 

تعتمد أغلب أنظمة تحليل الآراء على استباط الكلمات والعبارات ذات دلالات 
الإعجاب أو الرفض. مثل «المنتج رائع» أو «الخدمة سيئة». بالإضافة إلى الأخذ بعين 
الاعتبار الرموز 1120[15 المستخدمة حاليا في شبكات التواصل الاجتماعي لدلالتها على 
الإعجابء أو الحيرة» أو الغضب وغير ذلك. 

وبالطبع» فقد اهتم الكثير من الباحثين بتطوير خوارزميات وبرمجيات لتسهيل تجميع 
وتحليل الآراء باللغة العربية. ومثال ذلكء الدراسة ["77] والتي اهتمت بتحليل الآراء 
وتقسيم مجموعات النقاش على شبكة الإنترنت حسب آراء المشتركين فيها وتوجهاتهم» 
ونظام +1415413/41] لتحليل الآراء في شبكات التواصل الاجتتاعي باللغة العربية» 
ونظام [15] لتحليل آراء مستخدمي الفنادق» والدراسة [17] التي سعت لتحليل 
مشاعر مستخدمي شبكة تويتر للتواصل الاجتماعي. 

بالإضافة إلى ذلك» عمل بعض الباحثين على استقصاء أهم الدراسات والأنظمة 
لتحليل المشاعر والآراء باللغة العربية [51] والتي يمكن الرجوع إليها للمهتمين 
بتطوير هذا المجال. 


"و" و١‏ توليد النخصوص 626120105 )162 

عملية توليد النصوص شغلت العديد من الباحثين لأوقات طويلة منذ بدايات 
ظهور علم معالجة اللغات الطبيعية. وكانت عملية توليد النصوص في بداية الأمر 
بدائية جدا تعتمد على عمليات الإحصاء والاحتالات لإعادة توزيع النصوص المدخلة 
مسبقاً بشكل مختلف [14-7/8]. وكانت أغلب هذه الطرق تفتقر لوجود ترابط منطقي 
ودلالي في النصوص التي تم توليدها من قبل الحاسب الآلي. 


-الااك- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


ومع التطور الأخير في خوارزميات التعلم العميق» وخاصة خوارزميات الشبكات 
العصبية المتكررة» أصبح مجال توليد النصوص مالا خصبا علميا وعمليا في كثير 
من التطبيقات. حيث إن توليد النصوص يمكن توظيفة في كتابة المقاللات وتلخيص 
التقارير وعرض النتائج .]1/8-١/٠[‏ 

وبسبب ثراء اللغة العربية وقواعدهاء يعتبر مجال توليد النصوص العربية أحد أصعب 
فروع معالجحة اللغة العربية. ولكن ومع التطور ال حالي في مجالات الذكاء الاصطناعي» 
وبخاصة التعلم العميق» أصبحت عملية توليد النصوص آقل جهدا بكثير ولا تتطلب 
تعمقا في قواعد اللغة بقدر ما تتنطلب من خبرات برمجية لبناء خوارزميات لديها القدرة 
على استنباط قواعد وأناط اللغة بشكل تلقائى. ونود الإشارة هنا إلى أن محال توليد 
الصرصن باللنة العرية بعد غالا خصياً جد للدرافة والبحف العئس ولطرير 
البرجيات التطبيقية. 1 


١‏ أهم وظائف معالجحة اللغات الطبيعية 

نسلط الضوء في هذا الفصل على أهم وظائف (مهام) معالجة اللغات الطبيعية 
من أجل قثيل» وتقطيع» وتجذيع» وربط الدلالات والمعاني في النصوص وغيرها من 
الوظائف الحامة التي يكثر استخدامها. كما أننا نشير إلى بعض أهم الدراسات والأدوات 
مفتوحة المصدر التى بدف إلى خدمة اللغة العربية في هذه المجالات. ونود توجيه 
القارئ إلى بحث أمجد أبو جبارة «استقصاء تقنيات معالجة اللغات الطبيعية وتطبيقاتها 
في اللغة العربية» ضمن كتاب «الحرف العربي والتقنية» [4/!] والذي استقصى فيه 
الباحث أهم وظائف وتطبيقات علم معالجة اللغة العربية بالتفصيل مع الإشارة إلى 
أهم مراجع المجال. 


١‏ و”. التسوية الإملائية دهه تله صحده]8 عتطمةمرعمطا0 

وتبتم هذه العميلة بتجهيز النصوص للمعالجة من خلال إزالة الشوائب الكتابية 
والرموز التي لا تؤثر في عملية معالجة النص. فقد لا يكون لعلامات الترقيم أو 
التشكيل أي أهمية في بعض التطبيقات» وعليه يتم إزالتها. ومن الأمثلة الأخرى توحيد 
الأحرف التي يتم الخلط بينها كهمزات الوصل والقطعء والآلف المقصورة والياء في 
آخر الكلمة» والتاء المربوطة والحاء في آخر الكلمة» وإزالة التطول. 


-5/اا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الاك --__|سسيييبوىو,ى ااا 


؟ ١”.‏ التحليل اللفظي درك لوعتزء .]1 

ويقصد به تقطيع النص إلى أجزائه الأساسية 101625 من الكلمات والحروف 
وعلامات الترقيم مع تبيان بداية ونهاية كل وحدة من هذه الأجزاء [5/-87]. ونميز 
هنا بين نوعين للتحليل اللفظي: 

)١(‏ التحليل اللفظي السطحي: والذي يعمل على تقطيع النص إلى الوحدات التي 
تفصل بينها المسافة البيضاءء وخهاية السطرء ونهاية النصء والأرقام» وعلامات الترقيم. 

(0) والتحليل اللفظي العميق: والذي يعمل على تقطيع النص إلى الأجزاء الأساسية 
للمفردات الناتجة عن تركيب عدة مكونات» كالضهمائر المتصلة وأل التعريف. 

1١” *‏ تصنيف أقسام الكلام 1 تاعععم5 01 انتوط 

ويُعنى هذا الفرع بدراسة وتصنيف أجزاء الكلام حسب سياقها الإعرابي» كتصنيف 
الكلمات إلى أسماء (فردية وزوجية وجمع)» أو أفعال (الماضي والحاضر والمستقبل)» أو 
حروف (كحروف العطف والجر)»ء وغيرها من أقسام الكلام وتصنيفاته. وتكمن 
صعوبة هذه العملية في تصنيف أقسام الكلام بناءً على السياق» فيمكن أن تصنف كلمة 
«سعيد) على كونها اسم أو صفة حسب سياق الكلام. 

١#‏ التجذيع ا 

وهى عملية حذف الزوائد الداخلة على الكلمة لإرجاعها إلى جذعها (أو أقرب 
ما 72 إلى أسام: الكلمة). فكل من المصطلحات التالية 31811128 و]2عتطتاونة 
و 0عناع3 تمتلك نفس الجذع 181 مع ملاحظة أن هذا الجذع ليس كلمة إنجليزية 
صحيحة ولكنه الجذع الأقرب لأساس الكلمة. ولعملية التجذيع أهمية في تطبيقات 
استرجاع البيانات» وفهرستهاء وتجميع النصوصء وكشف النصوص المتشابهة [1/- 
7. ولايزال هذا المجال خصبا للبحث العلمي والتطير في اللغة العربية [/1/-89]. 


ن ل تأصيل الكلمة 7112161226100ع.] 
وهى عملية إعادة الكلمة إلى أصلها ولكن بشرط كون الأصل كلمة صحيحة وذلك 
على عكس التجذيع الذي لا يشترط كون الجذع صحيحاً. فأصل كلمة 55ء]نام1وه 


- 07 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ6ا ييا 


يعود إلى عانامددمه (أما جذع الكلمة فهو 106م6017). وثمة اختلاف آخر: إذ إن 
التأصيل يمكن أن يرجع كلمة إلى أخرى مختلفة في اللفظ كتأصيل تقة و15 وعنة إلى 
فعل الكون 5. 

وبالإضافة إلى هذه الوظائف الامة لمعالجة اللغات الطبيعية» توجد العديد من 
الوظائف الأخرى التي يستطيع الدارسون الاطلاع عليهاء مثل وظائف التشكيل الآلي 
[141-0]. وتحليل البناء النحوي [141-971؛ وتحليل علاقات الكلام [145]» وتمييز 
أسماء الأعلام [40] وغيرها. 

ونود الإشارة هنا أنه بالرغم من وجود مصادر متعددة وأدوات مفتوحة المصدر 
لمعالجة اللغات الطبيعية» إلا أن مجال معالجة اللغة العربية لا يزال يفتقر إلى الكثير من 
الأبحاث العلمية والعملية والأدوات مفتوحة المصدر للوصول إلى درجات متقدمة 
تمكننا من تطوير تطبيقات برمجية في مختلف المجالات» وبخاصة تلك التطبيقات التي 
تعتمد على خوارزميات الذكاء الاصطناعي المتقدمة. ْ 


"-التعلم العميق ومعالجة اللغات الطبيعية 

التعلم العميق 16310108 م166 [97-/91] هو أحد فروع علم تعلم الآلة 
8ه عصتطه813 والذي ميتم بتطوير خوارزميات تكن الحاسب الآلي من 
«تعلم» أداء المهام الصعبة التي تتطلب فهأ] عميقا للبيانات وطبيعية عملها (كتشخيص 
الأمراض تلقائيا باستخدام الصور الطبية). وما يميز خوارزميات التعلم العميق 
بشكل خاص هو إمكانيتها تعلم المهام بدون برمجة صريحة. ونعني بالبرمجة الصريحة 
هنا استخراج ميزات البيانات 1*6301565 بشكل يدوي والحكم عليها بقواعد ثابتة. 
فخوار زميات التعلم العميق يمكنها استخراج ميزات البيانات وأنماطها المتكررة بشكل 
تلقائي من خلال الاطلاع على الكثير من البيانات المدخلة ومن ثم تحليلها لإيجاد روابط 
وعلاقات مباشرة أو غير مباشرة بين البيانات المدخلة (كالصور الطبية) والمخرجات 
المطلوبة (كتشخيص المرض). وذلك على عكس خوارزميات تعلم الآلة السابقة التي 
كانت تتطلب فهمَ البيانات وجهداً كبيراً لتحديد ميزاتها وأنماطها بشكل يدوي من قبل 
علماء البيانات. الشكل ١‏ يوضح الاختلاف بين طريقة عمل خوارزميات تعلم الآلة 


-5/اا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ليها ا -_|سسسييبىو,ى ااا 


السابقة وخوارزميات التعلم العميق: حيث يوضح الشكل أن خوارزميات تعلم الآلة 
السابقة تتطلب تدخلاً من قبل علماء البيانات ومختصي المجال من أجل استخراج ميزات 
البيانات قبل تمريرها إلى خوارزميات تعلم الآلة» أما خوارزميات التعلم العميق فتعمل 
ذلك تلقائيا بدون تدخل البشر. 


(ب) طريقة عمل خوارزميات التعلم العميق 
الشكل :)١(‏ مقارنة بين طريقتي عمل خوارزميات تعلم الآلة والتعلم العميق. 
وعلى الرغم من نجاح خوارزميات تعلم الآلة سابقاً في حل الكثير من المشكلات ذات 
البنى البسيطة» إلا أنها لم تكن فعالة في حل المشكلات ذات البنى المعقدة كاللغات الطبيعة 
والمشاهد البصرية والإشارات الصوتية. حيث إن هذه المشكلات تتطلب فهياً عميقاً 
للبيانات وأنماطها وعمل تحويلات غير خطية عديدة ومعقدة من أجل تحويل البيانات 
بشكلها الطبيعي؛ كالصورة مثلاًء إلى المخرجات المطلوبة» كوصف محتوى الصورة. 


١‏ كيف تتعلم خوارزميات التعلم العميق 

يَكمنْ جوهر خوارزميات التعلم العميق في إيجاد «الرابط العجيب» ما بين البيانات 
المدخلة كالصور مثلآء والمخرجات المطلوبة كتصنيف محتوى الصور-راجع الشكل 
١‏ الفقرة ب. وعملية «إيجاد الرابط العجيب» تسمى بعملية تدريب (أو تعليم) الآلة 
معقتطتة1' عستطعة/1. وتتم عملية التدريب من خلال تمرير البيانات المدخلة في عدد 
كبير من الطبقات المتتالية التي تحوي كل منها على عدد من الوحدات العصبونية 
135 (أو العصبونات) بيجا تحويل البيانات المدخلة إلى المخرجات المطلوبة من 
خلال إجراء عمليات رياضية غير خطية عليها. 


-ا١ا1/0-‎ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ6ا ييا 


وتشكل مجموعة الطبقات مايعرف بالشبكات العصبية الاصطناعية 41156191 
53 216111313 لكونها مستوحاة من الشبكات العصبية في دماغ الإنسان. 
وكذلك يطلق عليها مصطلح الشبكات العصبية العميقة 2161770113 21611131 زءه2آ 
بسبب عمق الطبقات فيها (كثرة عددها) وعليه تم تسمية مجموعة خوارزميات تعلم 
الآلة التي تعتمد على الشبكات العصبية العميقة بالتعلم العميق. 

وتختلف خوارزميات التعلم العميق باختلاف بنية 41701111610116 الشبكة العصبية» 
والتى ترمز إلى عدد الطبقات» وكيفية ارتباطها مع بعضها البتعض» وعدد العصبونات 
في كل طبقة. وبشكل عامء يمكن تصنيف طبقات الشبكات العصبية إلى الأنواع التالية 
(انظر الشكل ؟): 

* طبقة المدخلات: وهى المسؤولة عن إدخال البيانات إلى الشبكة العصبية. وعدد 

العصبونات في هذه الطبقة مساو لعدد ميزات البيانات المدخلة 1165هع*1. 
الطبقات الخفية (أو المخفية) 1.3618 1110060: وتقع مجموعة الطبقات 
هذه ما بين طبقة المدخلات وطبقة المخرجات». ووظيفتها الأساسية تحويل 
البيانات المدخلة إلى المخرجات المطلوبة. ويتم تحديد عدد هذه الطبقات وعدد 
العصبونات داخل كل منها خلال عملية تدريب الشبكة العصبية. 
* طبقة المخرجات: وهي المسؤولة عن استقبال نتائج الطبقات الخفية وإصدار 
النتيجة النهائية للشبكة العصبية (نتيجة التنبؤٌ 1100ء01ع21). 


علدا أنام ]© معنلا غنامما 


الشكل (7): بنية توضيحية للشبكات العصبية المستخدمة في التعلم العميق (من اليسار إلى اليمين) 


-]/اا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك4 ة د --_-_|||سسسيييبىو وى ااا 


وعملية تدريب الشبكة العصبية--في حالة التدريب تحت الإشراف-- تتم بخطوتين 
أساسيتين: الانتشار الأمامى 383]102م2:0 803:0 و الانتشار الخلفى 8201 
0ه تبادف 6 التدريب لضبط أوزان الشبكة (والأوزان هي متغيرات 
موجودة على روابط الشبكة العصبية تستخدم في حساب نتيجة التنبؤ)» وهي تشمل 
العمليات التالية في كل من عصبونات الطبقات الخفية» كما في الشكل 7: 

)١(‏ تُضرب كل قيمة من المدخلات زد ... ينعد ربد بالأوزان المقابلة زيبنا... يندا س«لاء 


فيه وثم 6 نتائج عمليات الضرب امد + ... + يارد + ,لاا )2] وفي بعض 
الأحيان يتم إضافة قيمة انحياز معينة رم للتحكم في نتائج التنبق 

(”) تُطبق عملية غير خطية على نتيجة الجمع من أجل كسر العلاقات الخطية 
مابين البيانات المدخلة والمخرجات المطلوبة. وتعتبر عملية [861:1 إحدى 
أكثر العمليات الغير خطية المستخدمة في الشبكات العصبية. بعد ذلك» يتم 
تمرير تلك النتيجة إلى عصبونات الطبقة التالية حيث يتم تكرار هذه العمليات 
الحسابية في كل وحدة عصبية وهكذا حتى طبقة المخرجات حيث يتم استخراج 
القيمة النهائية (نتيجة التنبؤ)» وهنا تتتهي عملية الانتشار الأمامي. 

(:) وبعد إيجاد نتيجة التنبؤ يتم مقارنتها مع النتيجة الصحيحة (حيث إننا أثناء 
عملية التدريب نعرف كل من البيانات المدخلة كالصورة مثلاً ونتيجتها 
الصحيحة كتصنيف الصورة) بحساب الفرق بين هاتين القيمتين باستخدام 
دالة خسارة معينة 11261108 1,055» ثم يتم إعادة ضبط أوزان الشبكة بناء على 
قيمة الخسارة بعملية الانتشار الخلفي 0 8301 من أجل تقليص 
قيمة الخسارة بأكبر قدر ممكن. ويتم تكرار هاتين الخطوتين (الانتشار الأمامي 
وثم ضبط أوزان الشبكة) مرات عديدة حتى يتم الحصول على أقل خسارة 
تمكنة وذلك من خلال إيجاد مجموعة الأوزان المثلى التى يمكن استخدامها 
لتحويل البيانات المدخلة إلى المخرجات المطلوبة بأكبر اق مكل 


-لا/لااك- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ا:6اة6ا ب ييا 


!| *- إل . ل كذ - 
ج٠لبعة‏ اخل حار ب 
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[' سلا 1 ) 
أوزان الشبكة آر 5 ٠‏ 
الشكل ". المبدأ الأساسى لعمل الشبكات العصبية (من اليسار إلى اليمين). 


"و" معالجة اللغات الطبيعية باستخدام التعلم العميق 

رغم نجاح الشبكات العصبية في أتمتة الكثير من التطبيقات التي تعتمد على البيانات 
المنفصلة (كتصنيف الأمراض بالاطلاع على صور الأشعة السينية)؛ فإن هذه الشبكات 
تواجه تحدياً صعباً غند تحليل البيانات المتسلسلة التى تعمد عل ارتباظ وكيق فيا ينها 
كالنصوص اللغوية والموجات الصوتية ومقاطع الفيديوء حيث إن أتمتة تطبيقات كهذه 
يتطلب فهاً لسياق النص وتساسله. لذاء ظهر نوع جديد من الشبكات العصبية التي 
تملك وظائف إضافية تمكنها من ربط البيانات المتسلسلة حسب ترتيبها الزمني ومن ثم 
استخدامها في تطبيقات مختلفة كمعالجحة اللغات الطبيعية والمشاهد البصرية والأصوات. 
هذا النوع من الشبكات العصبية» والتي تسمى بالشبكات العصبية المتكررة [918] 
5 1121ا 1 أله 1ناء 11 تلك روابط تغذية استرجاعية 5م1.00آ عاعةطلعء ]1 
#كدهامة اكنشاف الأناط المعيدة هبمج البيانات المسلسلة الزمنية: 

ولكن حتى مع وجود خوارزميات متخصصة في التعلم من البيانات المتسلسلة, إلا 
أن معالجة اللغات الطبيعية» وبخاصة العربية» لاتزال تواجه العديد من الصعوبات» 
كتحويل النص إلى ترميز معين يمكن إجراء العمليات الحسابية عليه. ونميز فيا يل بين 
طريقتين لتمثيل اللغات الطبيعية في التعلم العميق: ْ 

4 ترميز البت الواحد 5200108 026-1101: وفي هذه الطريقة يتم تمثيل كل كلمة 
بمصفوفة سطرية (شعاع سطري) تحوي أصفارا في جميع الخانات ما عدا الخانة التي تمثل 
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تلك الكلمة (والتي يتم اختيارها بشكل عشوائي غير متكرر) حيث يوضع الرقم ١‏ في 
الخانة المقابلة لتلك الكلمة. فعلى سبيل المثال نتيجة تمثيل جملة «أكل الطفل التفاحة» قد 
تتكون من المصفوفات السطرية التالية: 

]٠.١.١[ أكل‎ 

الطفل لمآ 

]|٠.٠.1١[ التفاحة‎ 

ونلاحظ من المثال السابق أن عدد الأعمدة في المصفوفات السطرية مساو لعدد 
الكلمات في النص. فلو كان لدينا نص يتألف من ألفي كلمة» لكان حجم ثيل كل 
كلمة هو مصفوفة سطرية تحوي ألفي عمود. وهذا بالتأكيد يؤدي إلى إنتاج مصفوفات 
سطرية ذات حجم ضخم جداً يصعب إجراء العمليات الحسابية عليهاء بغض النظر أن 
أغلب عناصر المصفوفة تحوي أصفارا. 

كما نلاحظ عدم ارتباط معنى الكلمات مع تمثيلها. فعلى سبيل المثال» كلمة «طبيب» 
يمكن أن تمثل ب 

4:1 ...]يبنا كلمة «دكتور» يمكن أن قُفل 1[7 مه .ه ,«..ة]] رضم 
احتمال قرمها في المعنى. وهذا بالطبع يفقد تحليل النص أهمية كبيرة في فهم وربط المعاني 
والجمل والتسلسل المنطقي والدلالات اللفظية وربط الضمائر وغيرها. 

ب) تضمين الكلمات 87256001285 71050: وهذه الطريقة تعتمد على تثيل 
الكلمات باستخدام مصفوفات سطرية مع تضمين العلاقات بين الكلمات المستخدمة 
3. ويتم إنشاء هذه المصفوفات السطرية لتمثيل الكلمات من خلال تدريبها على 
شبكات عصبية بسيطة البنية. فعلى سبيل المثال» يتم تدريب شبكة عصبية على التنبؤ 
بالكلمة الناقصة في العبارة التالية «أكل الطفل .... الناضجة». وبالاعتماد على التدريب 
باستخدام نصوص وفيرة المعاني ذات عبارات مشابهة» فإن كلا من كلمتي «التفاحة» 
و»البرتقالة» سوف تمثل احتمالاً عالياً لمئ الفراغ في الجملة السابقة. وهذا يعني أيضاً 
وجود ارتباط وتشابه بين هاتين الكلمتين (وبالفعل إن الكلمتين متشابهتين في كونها 
فواكه). وعليه فإن المصفوفات السطرية التي تمثل كلا من كلمتي التفاحة والبرتقالة 
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سوف تحتوي على قيمة رقمية تبين نسبة التشابه والترابط بين الكلمتين. ومن فوائد هذه 
الطريقة هو تجميع الكلمات ذات المعاني المتشابهة في مجموعات قريبة لبعضها البعض 
داخل مصفوفات التمثيل. وهذه العلاقات الت يتم تشكيلها بين الكلمات المتشامبة 
علاقات خطية يمكن تتبعها بسهولة وإجراء العمليات الخحسابية عليها. فإذا انطلقنا 
من مصفوفة التمثيل للمصفوفة السطرية لكلمة «ملك» -مثلاً- ثم تحركنا باتجاه قيمة 
مشاءهة لاتجاه وقيمة المسافة بين كلمتى «رجل») و«امرأة» لوصلنا إلى كلمة «ملكة». 
وهذا يعنى أن كلمتى «ملك» 157 تتواجدان في فضاء رياضى قريب لبعضها 
البعض ذا اتجاه 57 لكلمتى «ملكة» و«امرأة». كما أننا إذا طرها المصفوفة 
النطرية الكلمة رخل من كلبةاملاك يكرة الناقه هو السشرفة المطرية الكلمة ملكة 
للك عبرل دولك 

بعد أن تعرفنا على ماهية التعلم العميق وعلى بعض إمكانيات مجال تحليل ومعالحة 
اللغات الطبيعية والنصوص اللمتسلسلة باستخدام الشبكات العصبية المتكررة وعلى 
بعض طرق تمثيل اللغات الطبيعية» نشرح في الفصل التالي دراسة عملية عن توليد نص 
شعري عربي حر باستخدام التعلم العميق. 
'- شاعر بلا مشاعر: تجربة في توليد الشعر العربي 

نستعرض في هذا الفصل تجربتنا الفريدة في إنشاء الشعر العربي الحر باستخدام 
خواززميات التعلع العميق لتوليد النصوض. بيت إثنا عملنا عل اتطوير. شاعر 
إلكتروني» أسميناه «شاعر بلا مشاعر» (لأسباب واضحة) »]٠١١[‏ يقوم بتوليد 
نصوص عربية محاكية لأشعار الشاعر الدمشقي نزار قباني (ننشر كثيرا منها كتغريدات 
في شبكة التواصل الاجتماعي «تويتر»). 

نهدف في هذا الفصل إلى تعريف القارئ بالخطوات والمهام اللازمة لتكرار وتطوير 
هذه الدراسة (كما أننا نوفر المصدر المفتوح لحذا الخوارزمية على الرابط التالي 11 )]٠١‏ 
ونشجع على تطوير أدوات أخرى تعمل على توليد النصوص العربية في مجالات مختلفة» 
وذلك أن الخوارزمية المستخدمة مفتوحة المصدر (50106 2ءم0) ويمكن إعادة 
استخدامها مجاناً في أكثر من مجال كتوليد الرواياتء أو المواضيع التقنية» أو حتى تطوير 
أنظمة للرد التلقائي على رسائل البريد الإلكتروني. 
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”.١‏ تجميع وتبيتة البيانات 
عملية تجميع وتجهيز البيانات واحدة من أصعب وأطول مراحل بناء نىاذج تعلم 
الآلة» إذ يصعب الوصول إلى بيانات جيدة ومفتوحة المصدر لاستخدامها في تدريب 
هذه الخوارزميات. ى| أنه -حتى مع وجود بيانات مفتوحة المصدر- لا بد من بذل 
الوقت والجهد ني تبيئة البيانات لتكون صالحة للاستخدام من قبل خوارزميات التعلم 
العميق» كعمليات تنظيف البيانات» وتمثيلها (تحويلها من نصوص إلى أرقام)» وتعبئة 
البيانات الناقصة» وغيرها من الخطوات اللازمة قبل البدء في عملية التدريب. 
وقمنا بتجميع البيانات اللازمة (أشعار نزار قباني) في تجربتنا هذه بالطريقتين 
التاليتين: 
* من خلال استخدام محرك البحث جوجل. واعتمدنا هنا على البحث عن مواقع 
تحوي أشعاراً لنزار قباني ثم قمنا بنسخ ولصق هذا الأشعار داخل ملفات نصية 
-بعد التأكد من صلاحية حقوق النشر لهذه الأبيات الشعرية. 
* من خلال استخدام شبكة توتير للتواصل الاجتماعي. حيث عملنا على تطوير 
برنامج بلغة «بايثون» ليقوم بالبحث التلقائي عن تغريدات شعرية لنزار قبانٍ 
3 وتحميلها ني الملف النصي. 
وبعد أن تكونت لدينا مجموعة مناسبة من النصوص «الأبيات الشعرية) لعملية 
التدريب» عملنا على استخدام وظائف معالجحة اللغات الطبيعية التي ذكرناها في الفصل 
السابق للتنسيقء والتسوية الإملائية» وإزالة الشوائب من النصوص. وبشكل خاص» 
عملنا على التأكد من خلو النصوص من الكلمات الإنجليزية» والرموز التعبيرية, 
والدوال التصنيفية (113512188) وذلك لعدم أهمية هذه الأجزاء في تدريب الآلة وإنما 
تعتبر شوائب يجب إزالتها. ونوضح عمليات تجيهز النص في الخوارزمية١‏ . 
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111111325 
الخوارزمية .١‏ توضيح مبسط خوار زمية تجهيز النص 
وبعد إزالة الشوائب من النصء كان لا بد من إيجاد طريقة مناسبة لتمثيل النص. 
وعلى الرغم من وجود العديد من الطرق لتمثيل النصوص. كما شرحنا سابقاًء إلا 
أننا اعتمدنا في تجربتنا هذه على تحويل كل حرف ورمز من النص إلى رقم عشري محدد 
لتسهيل عملية التدريب. وقمنا بعمل ذلك من خلال إنشاء شعاع (مصفوفة سطرية) 
من ا حروف والرموز الفريدة في النص وإعطاء كل منها رقم معين عشوائي بحسب أول 
ظهور له في النصوصء وبلغ طول الشعاع 4١‏ للحروف وعلامات الترقيم والتشكيل. 
ولتسريع عملية التدريب» قمنا بتحويل هذه الأرقام إلى أرقام كسرية ما بين الصفر 
والواحد. وذلك لأن عملية التعلم تتم من خلال ضرب هذه الأرقام بأوزان الشبكة 
ومن ثم تطبق التحويلات الغير خطية عليها (راجع الشكل ”). وتحويل الأرقام 
العشرية إلى كسرية يصغر قيم النتائج فيسرع عمليات الضرب وبالتالي يقلص الوقت 
اللازم لتدريب الشبكة العصبية. 


عستي ل ب له ير لانت 


؟ و" اختيار وحدة النموذج 

بعد تجهيز البيانات» واجهنا الحاجة للاختيار بين طريقتين مختلفتين لتدريب 
النموذج: إما تدريب النموذج ككلات متتالية أو كحروف متتالية. فتدريب النموذج 
على الكلمات -بدلا من الحروف- يتفوق في توليد نصوص ذات معنى مترابط» حيث 
إن النصوص المولدة ستحوي كلمات صحيحة دائاً» كما أن وقت التدريب أقل بكثير 
مقارنة بتدريب النموذج على الحروف؛ ذلك لأن تدريب النموذج على الكلمات يعني 
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أن النموذج على دراية سابقة بالكلمات وإنما بهدف لاستنباط سياق الكلام وقواعده 
وكيفية توزيع الكللات. 
أما تدريب النموذج على الحروف فيحتاج لوقت أطول ولشبكات عصبية ذات 
بنى عميقة جداً وذلك لأن الشبكة العصبية تحتاج لتعلم إنشاء الكلمات من الحروف 
والقواعد الإملائية أولا قبل تعلم استنباط سياق الكلام وكيفة توزيع الكلمات. ولقد 
اخترنا توليد النصوص حرفاً حرفاً في تجربتنا هذه لسببين أساسين: 
" أننا أردنا أن نختبر إمكانية تدريب النموذج على عملية توليد النصوص مع 
علامات التشكيل. حيث أن بعض الأشعار التى استخدمناها في عملية 
الندريي قوسد 1 وبالتال هن عنبل؟ تلاريية | اللموام عرفا بحرفا سيوف 
تضمن تدريب النموذج على علامات التشكيل باعتبارها حروفاً. 
» أننا أردنا-فعلاً- إبراز قدرة الشبكات العصبية على تعلم توليد كلمات عربية 
صحيحة ذات معنى ودلالات مترابطة من الحروف. بدلا من إعادة إنشاء 
كلمات موجودة مسبقاً داخل النص المستخدم في عملية التدريب. 


*' ,”ا تدريب النموذج 

الخطوة التالية تمثلت في تقسيم النص إلى أقسام متسلسلة موحدة الطول لتغذيتها 
في نموذج التعلم العميق» حيث قررنا استخدام سلاسل نصية مكونة من ٠٠١‏ حرف 
لتغذي النظام بشكل دوري أثناء عملية التدريب (وذلك لأن هدفنا كان إنشاء شاعر 
آلي يقوم بتغريد الأشعار -أو مايشابه الأشعار- على شبكة تويتر » ى) أن هذا الطول 
مناسب لتدريب الشبكات العصبية بناءً على الحروف عموماً). وأخيراًء قمنا بتمثيل 
النص بطريقة 8200108 11016 -عم0 التي شر حناها سابقاً. 


ولتوضيح عملية التدريبء فإننا نزود النظام بمئة حرف في كل دورة وندع له التنبؤ 
با حرف التالي حتى يتم تدريب الخوارزمية على كافة النصء ونقوم بتكرار هذا العملية 
على النص كاملاً مرات عديدة حتى تزداد كفاءة التنبؤ في النموذج. وعليه يمكننا اعتبار 
عملية تدريب الشبكات العصبية على توليد النصوص بأنها عملية تدريب النموذج على 
التنبؤ بالحرف التالي في سلسلة نص معيئة. 
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فعلى سبيل المثال» إذا عملنا على تقسم النص إلى متسلسلة ذات طول أربعة حروف 
في العبارة التالية (سبحان الله»» فإن خطوتي التدريب والتنبؤ سوف تعملان على الشكل 


التالي: 

خطوة التدريب خطوة التنبقؤ 
س بحا نَ 
باح ان (مسافة) 

حَ ان (مسافة) ا 

ا ن(مسافة)ا ل 

ن (مسافة) ال ل 

(مسافة) ا ل ل 5 


5 و ٠”‏ اختيار بنية النموذج 
من أجل توليد النصوص باستخدام التعلم العميق» يمكن استخدام الشبكات 
العصبية المتكررة 216150116 11611181 1101111614 وبشكل خاص. بنية -55011 1028 
10177 نتتنء1 لفعاليتها المعروفة في تحليل البيانات المتسلسلة. واعتمدنا في إنشاء 
شبكتنا العصبية على البنية التالية: 
*؟ طبقة المدخلات: وتحوي ٠٠١‏ وحدة عصبونية مهمتها إدخال السلاسل النصية 
التي قمنها بتجهيزها سابقاً ومن ثم تمريرها إلى الطبقة الخفية الأولى. 
٠‏ طبقتان خفيتان: الأولى تحوي 707 وحدة عصبونية» والثانية تحوي ١١/‏ وحدة 
عصبونية (نصف الأولى). 
؟ طبقة المخرجات والتى تستقبل بيانات الطبقات الخفية السابقة وتحوها إلى 
الشركة العصيية. 
واختيارنا هذه البنية كان بعد العديد من التجارب» حيث لا توجد -حتى الآن- 
يقة علمية معتمدة لاختيار البنى المثلى لشبكات التعلم العميق بسبب عدم معرفة 
كيفية توزيع الأوزان داخل الطبقات الخفية كا ذكرنا سابقاً. فعملية إيجاد البنية المثى 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الي”٠ا‏ ا ا ا -__|سسيييبىو,ى ااا 


للشبكات العصبية (عدد الطبقات الخفية والعصبونات في كل منها) هى عملية بحث 
تتم من خلال المحاولة والتكرار ومراقبة الأخطاء والتعلم منها. 


©" تدريب وتقييم النموذج 

بعد تطوير بنية نموذج التعلم العميق وتجهيز النص لاستخدامه في عملية التدريب» 
قمنا بالبدء الفعلي بعملية تدريب النموذج على توليد النصوص. حيث بدأت الشبكة 
العصبية بتوليد نصوص مقروءة بعد الكّرّة (أو الدورة) 001م2 العشرين (والكرٌة 
هى عملية التدريب الواحدة على كافة النص الموجود). وأكملنا عملية التدريب حتى 
الدورة الخمسين حيث بدأت الشبكة العصبية بتوليد نصوص ذات نتائج عالية الدقة 
وصلت حتى /97. وهى نتيجة مقبولة جد لو أخذنا بساطة البئية المستخدمة وعمليتى 
التدريب وتهيئة البيانات بالإضافة إلى حجم نص التدريب لدينا بعين الاعتبار مقارنة 
بطرق توليد النصوص التقليدية. 


- النتائج 

نوضح في الشكل ‏ أمثلة من التغريدات الشعرية التي تم توليدها ونشرها بواسطة 
شاعر بلا مشاعر. ونلاحظ من خلال هذه الأمثلة أن بعض الكلمات تحوي تشكيلاء 
وذلك لأن بيانات التدريب كانت تحوي التشكيل أيضاً. كما نلاحظ أن معظم التغريدات 
تحوي شطراً شعرياً واحداً وذلك لأننا قمنا بتدريب النموذج على متسلسلات نصية 
بطول ٠٠١‏ حرف. ويمكن تعديل ذلك بكل سهولة لإنشاء الشطور الشعرية بأشكال 
مختلفة» ولكننا اقتصرنا على الشعر الحر هنا للسهولة ومناسبة منصة التواصل الاجتماعى 
وقدود عي لاحر ف افيا ع اكيت لعفي الفتر وناك رسع كلرانت قر 
مناسبة أو لا معنى لما (ككلمة «المسرا» في التغريدة الأخيرة في الشكل ؟ مثلا)» وهذا 
متوقع حيث إن النموذج تم تدريبه على الحروف لا الكلمات. 


-١/868- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


ين 2158 :ترم ٠‏ 81_5173367©) شاعر بلا مشاعر 2 ٠‏ 
الحب والبحر لا يقياقن اتضافت الحلولٌ 6 
ثُ ليا 4 1 0 
ب 8 ,3 /زتاا! ٠‏ )ع281_5133©) شاعر بلا مشاعر 5 
كثير.. كان شعوري 8 
ثُّ 2 9 11 5 
ب 58 ,22 ]نرث ٠‏ )5183© شاعر بلا مشاعر ١‏ ,2 
علمني حبك كيف أحبك في كل السئين 6 
ََ حلي 03 _- 
5 : قث 1 17 1م شاعر بلا مشاعر 
كثبر حنيئنا. وأكثر شاغرية. وأكثر إحساساً. يحاجة إلى من يغالجة ؟ 6 
2 
ىَ 
كك د 9 0032 . 
5 78 )تزيم وإذاء 1117ل شاعر بلا مشاعر ١‏ 
وأقولّ ما في حُبَكِ أنني لا أحبك. ولا أرك حدق الصنرًا - 
7 


الشكل (4): بعض الأمثلة للنصوص التي تم توليدها 
وقد لا قت هذه الأداة إعجاب بعض مستخدمي موقع التواصل تويتر وحصلت 
على ١٠١3”‏ متابع» بمعدل " إعجابات لكل تغريدة حتى تاريخ كتابة هذا البحث. وندعو 
المهتم إلى الاطلاع على هذه الأداة ]٠١١[‏ تحت اسم المستخدم 41_518365©) وإنشاء 
أدوات مشابهة كتوليد القصص والروايات. 


دراك 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الاك --__|سسيييبوىو,ى ااا 


ه- الخاتمة 

قدمنا في بحثنا هذا لمحة مبسطة عن معالجة اللغات الطبيعية» واستعرضنا أهم 
تطبيقاتها الحالية في مجالات عدة» ى| عرّفنا بهم الوظائف التي ينبغي الإلمام بها للمهتم 
في المجال وكيفية تطبيقها على النصوص للمساعدة في تجميع وتمثيل وتحليل النصوص 
المكتوبة والمنطوقة. ورّكزنا في هذا البحث على التعلم العميق في توليد اللغات الطبيعية. 
ففصلنا أولاً ماهية التعلم العميق وكيفية عمله» ثم عرضنا تجربتنا العملية» خطوة 
بخطوة: في توليد الشعر العربي باستخدام خوارزميات التعلم العميق. 

إن اللغة العربية ثرية بالدلالات اللفظية والقواعد الصرفية والنحوية والتي تجعلها 
واحدة من أروع اللغات على الإطلاق. لذاء فلا بد من التشجيع على الخوض في مجال 
معالجحة اللغات الطبيعية-وبخاصة للغة العربية-خصوصا مع تطور خوارزميات 
التعلم العميق التي تسهل معالجة اللغات الطبيعية وتطبيقاتها. 


-/ام1- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


المر اجع 

5061617 16أ15ناعطارآ 7701107 عطلا ما عنتعطا عت 5ع13281128 تتمتقطط 110159 

7165017 :1 211316كث [ع00112] .12 اعمطتخ 01 

0 0عووعععف] 1770110-ع1عططا-ء:3037-1315112565-31 0177-0[ /كطعتمامء /ع :1ه 
.[2019 1/1337 


1 .”ععدعع 1ااعاطا 220 لاع لطع قص2 125 امططهن)"' .1108نا1 .1/1 .م 
433-460.0 .0م 


0 :]165 1121285" .2000 .17 .مكلخ امه .1 .1كاعء01) ...لخ .ماع:(52 
.-463.مم .(100)4 .وعصتطاعططط ممه كلستاط ماعتهة! كنوع 


1110://977777-03 :31 عاطقاتوحث .[عمتلم0] .1811 .1منداكمة11' 
عع 4م ] .الطاط .م2 [قطهخا_115/701/701 -ط تطاءدء/7ك1ه 15ح /مماط مامه 
.[2019 :1133 22 


1 01 022025113102 ع1اطتنام أذلز عط .2005 ..ل .ممتاع بط 
87 طا7 .ططعاوتزو 70-1811اماعع01ع0) عطا :00 1شاكطهةنا 
.2 .11161211515 .71977//: اط زلا تع1ط6ناععاء مؤاعدء11طناط .1954 

.1 .101811-2005 تلن 


للع595 أماتتء5 صم الخد دعكلممط أغهط/1؟ .1975 ..17ا .1تعصلاعا 
1 و1556 2[1ع1اع01ع11 0[ .عطتاء3251 105أ5عنان 101 5عتانتططاعءعا 
.101611 :210655128 1321811286 1311131 


263777 320 851162 1151285 35125تامدعة2 .1980 ..1.16 .تمع كلء11 
15 أتع[قطعة1' .لاعا595 “1ء01165161050-32511 3 12 1110110316101 
053 


111150041101141[ 0[ .نامع نعء1ء1 1015201115 .1969 ...] .للاعمتطاتتهك]1 
1115 طآخة 00011217141102 0 ال ل 00 
0 .810 خسمتامع :1969 0011310 


2 18553375 :105051165 1031277 12 عمتعلدءعم5 .1972 ..713 .5ع ]ا 
.2 310511386 [حمع [ع:101 


-1١88- 


]1[ 


]2[ 


31 


]4[ 


51 


6) 


7 


]5[ 


]9[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل4هككك4 د ---_||سسييييىو وى ااا 


22103 112105221امطمك لخ .1963 ..1.] .05متطططاد مه .5 .سماعك] 
لك عطا 01 021تناه10 .70105 لاوتاعصظ 01 1285له0ه 21ع21لمتتصققع 16 
3341-7.مم .(100)3 .0 4ل) 


طععءم2311-01-5 .1للنامخ .1998 ..81 .جعنى 150021 له .آ .2عناوتة13/1 
0 ع266ع00211) 111107632 0ص[ .وعع1 15105عع0 115105 1285ع138 
تلااع8 .اع 112م5 .(25-36 .مم) عمتمتدع.ا عمتطاعدا1 


1 310 2108513112 3115م عتأمقطء 50 ل .1/137 .1989 ..1.117 طاعتتتحطت 
ععطءع 0111 210131 ماعط[ صا .انعا لعاء1 ادوع قطنا 101 نلء15م عمقخطام 
.(695-698 .(مم).ع طأاووءء20 2[1مع51 له .تاعععم5 .5ع5]1نامعك زه 

111 


17 015310151121101 021650177 170311621ئطتة1) .1988 ..[.5 .عو55لاء2آ1 
-31.مم .(14)1 .112811156165 0001162610121 ن) .1226102مطلامه 1ه151هاد 
,39 


أءاع] 21110173116 1ه تإعتكتناو ل .2007 ..1.لى .11205 لله .10 .035آ 
65 2 21181128[ 11 :101 5111777 111211116[ .511111121122161012 
4)192-195(7 .0/11 26 عكتتامكه 11 


17 :12001612 10 121001161102 .2010 ...0 “كتتاططل مط 
.ع طتطر امام أععد] .21كعتتاء1 


167177 2101716 .1321131 .2005 ..آ .تامطي لمة 2 .1111م قط 
1615150 32 61171560م511 <اعء:215 211501متطمه لل :ع للتطتطمط 
أقتتققتة 1طأ38 عطا 01 دع صتلععءءمء م[ .وعطعة10ممة 2ملنوء 5 1ومة1ء 
) 50162665 57751621 02 ععمع1ع1دمء 026100231ل1ع1م1 11357211 

.1811 .(ء1126-112 


95 .ال .2002 ..5 .لمقطتقمةتوطاله؟ 00مة .]ا .ععن] ..8 .عموط 
.15 1621011185 عصتلطع13 11518 1355156214101 لاع مط لامعو :7 ملا 
111231مططظط 02 ععمعتعلممه 02-لعى4 عطا 01 5عسمتلعععمءط مآ 
.(79-86 .0م100 عتطد1م؟-106655128م ع13281128 221131 طناآ كلم طاأعصط 

.5 0101112110121 ) 101 5506121101قم 
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]10[ 


]11[ 


]12[ 


]13[ 


]14[ 


]15[ 


]16[ 


]17[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


ل6115منا5 .2007 ..,2 .5[عتصاط له .1 .كاكلة تقطة/ ...5.8 .كاخطهة1ئا0 ]ا 
5 .161112101165 01125511211011 16171617 لل :ع ملتمتتدع 1 عمتطاء 112 
.0 .628126118 11161 مامه 12 05 لدع 1اممة ععدعع 1ااعاصا 121ع 11ج 

3-4.م2 


0 ...ا .ضقطكا له .8.آ عع[ ..8 .متلتصتقطوظ8 ..خى مقطك] 
ع1 101 كتقط)11ه0ع231 كعمتصتوعا[ عمتطعممط 01 بتعلوعع ىم 
041 123 2053265 01 10111231 .2م0لنوع135515ه 5ااعسطتتعمل 

.4-20.مم .(1)1 .وع10مصطاءعا 


20 قتطط11ه2150 عتأعمعء0 .1988 ..1.81 .لطه لام ممه ...دآ .ئمء00610 
.95-9.م2 .(3)2 .ع تطتمتوع] عمتطعه/طا .عسمتمتدعا عمتاعقحط 


-ط15اع 0ط 101 126105 معططعء5 .2008 ..[ .1355© لطة .]1 .طاطث ..1 متلد8 
اناك 01 وع28العءع210 .1325131100 عمتطعهمط 52656621 عتطوتظ -ما 
-22.153 .15ءم29 ختامطك .811 :08 


10 امتاعص8 .2011 ..ن) .ضمنو عطاك لصة .21.1717 متطعلهط ..خ.د تمتقطن 
5 57751612 11325121102 عمتطعقطط 1وع5]2051 عاطوعطم 
ألمععع] .322137515 5010877م2201 عتطوعخ مه عطادوءء1]0مء1م عطاكلنا 
585 انع 1تاعه11 حا كلمطاع/ة لدع ةمسمعطتدل/طا ا دمعطاعتوعوع ]1 

.00.50-54 .501626 ناع ا امططهن) لة 


5 5701216 .تاعنتدل/طا .2009 ..ل .01355 لطة .1 .2016 ..1 تلد8 
6 17طاع223 لوع5]215]1 عاطومتخك-ماحطائتاعصظ 101 عسصتع10مع1 
013161 للوع0م1310آ عغطا 01 ععمعنعكمهن) 1215 عط 1ه دوع متلعءءه:ط سآ 
.(856-93 .مم) 15]165لاع 12[ 1162610031ملطهن) 101 126102ع50قى عطلا 01 

.5 0001113110121 101 126101 50و5مم 


عاطوعذة 085 أعدمصا عط1 .2012 .لح .علكهآ لصهة .8 .حلام 
-0]-ط15اعطظ عع23ء017ع-5020 01 12602امعصصوعة لوعاع10مطام1مطر 
-26)1 .225126102 عصتطع 1/13 .210 امطقن عمتطعومط لدع 512151 عاطه تم 

2(. 20.3-4 


-19:6- 


]15[ 


]19[ 


]20[ 


]21[ 


]22[ 


]23[ 


]24[ 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ليييبهبه ا ٠‏ -__سسييبىو,ى ااا 


مه عتطمقئع م01 .2012 ...لم بطمدطقط كمه .“ىث .17[مطكظا اآ 
21 526151621 ع1طان تخ ]5 1اع ما 101 71066551128 51221 110101010 
.25-5.م7 .(26)1-2 .113251361012 عمتطعد/ط .مم تشماقطة: 


2 عطتلدعء1) .7/1337 .2006 ..2 .813 00ج .لك .تمقطاتطر] 81 ..ك .مدمدط 
م أنع5126150 تاعمءءط م1 عأاطوعكى 216ع5-عع318آ1 
.(855-558 .مم) تالكالا م[ .لمعاوزه 


اع1200 25م0ة[كمقء[' .2009 ...ل .ختهااعمعك لصة .8 علصعء خطاعد 
27 لطع]5975 6532512105 26155 طأعمعء ط/عاطوعك حله 101 1316105م 203 
.الممتطدد5 811 م[ ص[ .ع متستمم لع15كاع مرناد-وراخطع 11 


101 63125131102 عطتاع 1223 0ع115-625م1م60 10157310 .2002 ../7 .علع 1010 
(601 .10111031 2102[اكطة:11' .عاطوعخ 0210 ماد 


2ع ع1 .لتتمث .2013 ..10.ن) .قمتصصد/ط ممه .ل عع ..5 .عع 
5 1 .63251202 1318113856 101 01115ع-2051 312 متتاطا 01 
«<1 1361015 031ققتط 02 ععمء1عقممه 5100181 عطلا 1ه 

.(439-448 .مرم) سلمطعاوز5 


عاطوتظحطة :اعمط .2019 ..18 تأاعمحك لله .721 .طم1له30 ...]1 .طقطظ 
881110 115128 تلع 5575 25121102ة1 1 عستطعة 11 10و11 
561 تلع امططهن) لععطة كلخ 01 1هقتتتاه0ل 2110021متتعتغم] .تجتمصمع 11 

.3--195.مم .(1001 .116261025[ممخ لة 


320 .5 .010112311 ..5 .10161م1كى ..لة .امدتزلواك ...[آ.5 .عاصتدد-6 1/1121 
210 21066551285 132511386 23601131 عأطوعخ .2019 ..1 .201قتاططظ 
.7011-0.مم .7 .ووعععة 1811 . كدطعاولز5 0ع035-ع متمتدع1 عسمتطع ممم 


0 .11113 ..لآ ختطه ..0آ .أعنا0ل ..0[ .15[ماعمهآ ..كة .لطا تععممع11 
[31211م 2 02 105تاكطة!' عمتاعد/8 .8123 .2019 ...1 .1اتقممك لمطة 
511131 02 ععمع 20011 20132 مهن ص[ .كنام1م0ن) عط 11هك-عل000 

.لاء1108م5 .(426-432 .مم) ععمعع 1 1اعاما 


له .]1 .تلط 115ن) ..[ 12/101 -ع كتقطك ...0 .15ع1120د5 ...8 .لطلمآ 
10111131 . 5اعتا1ععا 5111118 115115 13255156211010ء انزع 1 ' .2002 ..) . كمكلنة171 
.419-444.مم .(طع2)1 .طاعتوعوع] ع متمتوع.آ عمتطعةل/3ا 01 
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]25[ 


]26[ 


]27[ 


]25[ 


]29[ 


]30[ 


]31[ 


]32[ 


]33[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
:ا ييا 


25 -تمتوع -!8 .اتتمخ .1994 ..31.ل .عاكعلمع 1 امه .118 متمماحكة0 
[ةتتمقصة 30 .5[24115-94 015 د5عمتلعءء2:0 0[ .011231100ععلهه اجرعا 
10111 214 22177515 001112111 01 05111102 زه 

161175 


...1 .711101037 ممه ,2 .80[32015:511 ...1 .0135 .لذ .متلتامل 
1101مع1م 31117 .135515621100 لعا أمعاعلاء +101 كاع1ما 01 عد8 
.9 1 2102010111 
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.(649-657 .مم) قططاعأة59:5 2106655128 11011021105 121تاعطم 
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.1216111562 211151931 02 ععمء اع امه [خخذ طأتصتم 
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2117 .125515211052 ارزع :101 2155:01:15 011110081 تكممه مرععل تكزع/ا 
1 ةا 21011 


8-01 5128لا 013551821652 ع1 عاطوحخ .2006 ...[ .أوواعغطك] 
-72.75 .2006 .101/1111 .56103 2121576 ممطه0ن) ل د512]15]165 تزع مع نالوع 11 
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مل0عع015! ..خ .116315 اث ...ذخ .طاع:1قطتتطاخ ..5 .اطد]-اخم 
7 1 101ل 0101311غتتث .2008 ..خى ماء (ظ!1-آاث 320 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكش -__|سسيييىو وى ااا 


5 13551563105 أتناءا عأاطوحث .2007 ...لك .وعع21-اط 
1+ 115125 013551521102 ارتع1' عاطوحط .مامه مطل تمص 
.1501 .اممختصمط 


مه 11١‏ .طالتمطك]!-اخ ..5 .3102كتث ..1 .30تصطذ ..لا .ممتتماط 
ع1 12 11630605ممة لطة 32319515 :د5عختطوع1! عاطوعث .2015 ..م 
0011101 2ه ععمعتع مم0 0021همصاعغص[ا[ 1311 هآ .2متتمعمعع]1 

1[ .(896-900 .مم) (ركلخ-طلن1) هتمع معع] لمهة 5515[أدمم 


320 .117.0 .11م طكا- اخ ..5 .2102كتث ..1 .20تمطذ .لا .ممتتماظ 
ع .تتطع ]5375 0116515/ز5 232051111185 عأاطهوتث مخ .2015 ..م 
849-1.مم .(48)3 .102 لمع معع ]1 


اث 320 .5 .لاأعصطصطةتتطا0 ...1 .1طولقطك-لك ..0 .مققمفك] 
110م22 101165قاععا 1255152110ع-21ع1 01 2115011 ممطم0ك خ .2009 ...11 
101 5001617 لو اعمط عطا 01 031تتنا0ل .أجرعا عاطوعك م1 

.18536-1544.مم .(6009 .تزع 10ممطاععا 0ه ععمعاعة 


177أع113 .أوتاونتخ .2008 ..11 .1[آ لطة .11 .ناا ...1 .مم11 
.8 لتلطتةع. 0ع17715ءم511-آلطاء5 320 615150م511 1151528 5111101113112214101 
0 ععطع1ء001) 20281تطتعامآ 2220 عطا 01 5عستلعععمءط صآ 
04 (985-992 .7م0) 1 ع 1م -81115165 12[ 112160021 محم 

.1 113110021محط من 101 


عااناع 1ط .2005 ..[ .هاع321ن) لطهة .5 .كاأقمعا ..0) .ودتتتا8 
.5 116111185 01 5111101113112211011 


0ع1016طاع؟ موععل لذ .2017 ..] اعغطءهه5 مه .0 .01008 ...]1 .كتلتتوط 
111مع1م 311072  51111113112316101.‏ عكاكتأعقتاوطة 10 ع1200 
04 2112111 


ل :100515م0) .أكتاعتتخ .2010 ..ل .مقط لمة .) .آقطث/ ..آ .مددعمة 
لالاعتط 01 120173112311052نا5 عتكلاع3653 10 جاعة20ممة 0ع525 اماع 
122110031ع1] 2310 عطا 01 5ع مصتلعءءء20 0[ .كممتصامه أمملمصتتلع1 
.م0) (2010 عم110ه0ن)) 115]165ا128آ 012110021اممامن نه ععمع نع مم0 

340-348(. 
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]43[ 


]44[ 


]45[ 


]46[ 


]47[ 


]45[ 


]49[ 


]50[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ6ا ب ييا 


لقناعطخ ا لن8 .2014 .2 .عطعماظ 20 .0 .1211اول8 ..8 .012103 
اعمءءط لطهة عاطوتخ .تامتاعقطظ 02 5أمعمصتع ود 11211226102طتاك 
م5 6112221211025 عناع 810112 ع721011طمانخ غطصتترادةغ]) 
01 01285عع200 .[طعمعء1 م1 رنتدعمةءط ع1 أء عطمعك'! .15[داعمذ ' 1 

.49--543.مم .2 .(15ءم23 51011 :2 عسستتام؟) 2014 الأر[ث]' 


العا عاطوتخ .2013 ..ث.د 00241 لله لخ تتمعلطاعةآ ..8 .10ام] 
ععمقططء 10 202159:515 عتلأمقمطاء5 أمعتج! زه 0ع635 511111121122110 
2 0160111 317 .ع للاعأوتااهء 5أاعمطداءه0ل0 عاطوته 


عاطوتث لله .كقطكلةآ .2004 ..0 .عمطلومهآ ممه .1.5 .10011721012 
2004 )1 ]01 دع طتلعء2100 .59:51 511110111311221101 


اكع ع1طوتتظ 11311مأتلخ .2016 ..711.1.8 .تدمعل8ة مه .8خ .أعلوك- اخ 
.(45)2 .71617اع]1 ععمعع1[اعام! 121ع 15خ .510115 3 :511111121122110 
0.203-34م 


111251 اع طسسطعامء5 .2009 ..5 .وتتوصقط]! -لخ لطة .خ .امعطم 
07 تاه عاطهتىة 13610 16551052م7مه 0عاععاء5 "تعمل 
5 ا 1351131 0ه ععمعتع مه 0031قطتعتم[ 2009 10 .لاعاوود 

لآ .(1-7 .مم) عمتناءعماعصط ععله20171كا له عماووءءم1ط 


101 5111311311261 انزع لل .2012 ..5 .1131233731 '-آثخ تنه .11.ى .الطعم 
-260.م7 .(26)4 .ع3281128] ع تاععءم5 لع امدطهن) .عاطوتم 


0 5ع1ممتنتاعع1 ..71.0 .عقمول لمهة .1.5 .عقمتطن ..81.[ .عمه11ا 
1 تططء5 .2008 .عأنطتاكم] لاعتوعوع ]1 16261005لتامتططمععاء1' 
2 0858 م635 ععل0ه101771 101 ماعط 2ملاأعتتتاقطدمء 

7 اأا231 .5.ل0آ .559751112 3115151118 011651101 


7565 011651105 116ةتطماتتخ .2006 ..1 .للتاظ امه .]1 .نامك 
.(7701.92ع1اع ]1 102610م1م1] .10م1ع12 عطا لممتوءظ8 :ماع77 عطا عمامل 
.191-6.مم 


10 210171285 للع01ع1 01 1631102آممة عط[ .1969 ..0.0) م معع 1ن 
77 )الث ]1 5 .(05-138) .80) كلمع أة5925 ع8 10اء:51100-32051ع011 
5111 0011210111 01 21821[ اا[من 
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[1ثا 


]52[ 


]53[ 


]54[ 


551 


]56[ 


571 


]55[ 


]59[ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الس.ا اا -__|سسيييىو,ى ااا 


:018 .117ل .2002 ...5 .لاعصتاتقآ 320 .2 .ماع21 5-تاطة ...8 .مممستة]] 
.1 ع 1طوتث عطا 5112011 10 للاعأولز5 2121511761108 011651101 لكر 
00111211031 2ه «ممطوكاته7 401-02 عطا 01 دوع مطتلعءءءه»ط مآ 
101 061261052وقى .(1-11 .مم) 5عء13251128 علاأتططاءة 10 5عباعة0اممة 

001011121103 6. 


1 ...1 .59063 له .271 .[طتدط-اخ ..ذ .تمتقصطعظ ..5 .تتكاعظ 
للع825 ه5751 011651]101-41517611285) ع1طولخ مث :5175ثنا0م 
ععطو7ع1اع1 #2ع7اومث له 515ل9[حمطثظ 5]065ع00) علكاأومعاءاط زه 

.(3)4 .اعتوعوع] عتمطع لودع 01 021ناهل 121112110021 .501108 


1320101 ..ث .0ع1/1013122 ...16 .لع طتقطه8/1 ..14 .طوع ةا ..]1] ناءدودة سطاعل طم 
عاطوتك مله :مدتتة8-لاخ .2014 ..21 .1011 ممه .لظ ككلة81-11 ...8 
85 15 .0011131 110177 عطا 101 لطعاولز5 1128ء:32515 01151101 
36131[ عاطوتث 2ه «زمطو117701 2014 طرالطلا8 عطلا 01 

.(57-64 .مم) (ططآللخ) عماووءء10 


20138 ..320162067.10 .11 .1013 .. 8 .ع متكا ...0313ل -تاام 
85 12 .015611551025 عطتللاه 31212 12 5م1امع 511 لامتصامه 
0106111210531 ) 101 5506121101م عط 01 عصتاءعء1/1 لقنتصسصك ]15 ذ عطلا 1ه 

.(829-835 .مم .2 .171آ) (ؤاعمة 510116 :2 عممتسامكا) 15165 ناع مآ 


لخ الذهك .2014 ..5 ءا طنتكا امه .21 .136ئ[ ..324 .0عع1128-اتلطم 
5011 عأاطوعتثظ +10 322199515 طا1عممتتاتطعد لمنهة 7ا1كتاعء [ناك 
22.20-7 .(28)1 .ع321251128آ1 عك تاععءم5 نلعا مططه0) .110132 


5 ألة .لآ بطاء13101 ..11 .طنامتوجخ- اخ ..35/1 .01 مكحام 
1همخ 01 223177515 اتاعتطتامء5 0م25 حاعءم25 128[عمقطوظ .2019 ..0 
عتأتقمطء5 له عتاأع 2م592 .1وع1ع1010م1201 128كنا 5تلاعاع2 *واعامط 
-62.308 .(56)2 .أ عططاعع 1/1323 عى ع ماووء210 101011031105 .دع نتتطوع1 

319. 


56110111 .طعتة/ة .2019 ..'1 .1[قطع0) لطة .1.1 1[ ...1/1.16 .0ملقطاظط 
عط 01 5ممطاى ه110 مآ .5اعء:1 امتاعصط مله عتطوعخ 01 515و[ مط 
117705 12101171311011 عع ةلخ 0ه عععتع 1ه ) 210021 متتعاص][ 

ل1ع1118م5 .(334-348 .مزم) 116261025ممخ له 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):ُ:6ا ب ييا 


كلذ لمة علا بطء:13015 .خط بطعؤن1ةتصقط؟]ا ..11 .طنام كوخ ام 
ألاع تقاامع5 عأاطومتذ 01 ((ء1157اذ ع1[كمعطع]1م مامه ى .2019 ..11.8 
-62.320 .(56)2 .أ اعطاعع 23مة/ط عك ع طاووءعء210 11101102110 .20215:515 

342. 


2363181 101 بتعاولزة 11821 عط]! .عصول .1982 ..1.16 .مجتمعكاء11 
0 عطا 01 دع سصتلعءء2:0 ص0[ ,لاع 1تكاء:07 مذ :5261201100 132511286 
1-11٠‏ 01011121101121) :101 45501311011 01 121661118 210101121 

.+ 001111211011231 101 506131101قى .(113-120 


أكاعا 1[ع1!15 عطا 01 الع1اء07 مذ .عصلال .1983 ..117.00 .ممدلزا 
85 311131 2151 عطا 01 دع طتلعءء210 10 له لمتمطوطع 2101 تعمعع 
.(79-84 .مم) 1281115]165آ[ 1112610281ملطهن) 101 191105ع0و5ى زه 

000111311021 101 126101 0و5مم 


106 60111211012 مرعه0آ1 .2015 ...1 .1ج2ء (1/41112013 0منة .1 .متلا 
0 ععمعتعقدمه 18181 عطا 01 دعمصتلعءء2:0 مآ .عا 200 5ع110328 
.(3441-3450 .مزم) هتمع معع1 متام 220 71510 ع1 مامه 


122عع106 .2015 ..[ .133:6002ن) لطة .5 .81100 ...1 .0م00 ..5 .للكاه]”' 
عع 101 ع77011ع0طةتة عع50111 اعءم0 101له1عمعع -ل:ع0 2 :اعسمتقطت 
88 عتتطاعقحط ذه «مطاى[ه7 01 د5عطتلعءءم2 مط .ع متمهوعا 
0 60116266 21121131 ل_لتصتط- تامع عطا طا (555ع ملتمتدع.آ) ملاع اوره 
.(1-6 .مم .5 .1/01) (8[125) قططاعأة:59 2106655128 1011021102ط1 1هتتاعطم 


.0[ .111315157 320 .1 .030 ..7/1 .نق0211) .لخ ماع11 ..117 .110210 ..ل .انآ 
21117 .131101ع2عع عناع 10101310 31128تتدع1 أل1ءع مناعء:112101ع1 معء12آ .2016 
171 210111 


أمععع ]1 .2018 ..8 .#12طلطدن) لله .5 .0113 ..0آ .3كلاتة132 ..1 .ع طتامما 
166 .2106655128 132811386 23161121 53560 ع تلتتقتتدع1 مرععل صا كملاع 
-55.م75 .(130)3 .عماجةع 223 عنامعع 1ااعخصا 112660221 ممه 


ممه .ل .عمه11 ..117 .عمقطت ..ل .0060© ...نآ .عضعطتك ..5 .لامآ .لا للتاك 
101 1311015م عتكاتةتصطعمع] ثم ناعع :1223 .عمدال .2018 ..لا للا 
5111 1خ 210021متعغص[ غ415 عط!' مآ .5اع2200 ممتهة:عمعع برعا 
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]65[ 
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]73[ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك د --_|||سسييييبىو وى ااا 


04+ 13 اتعمطمماء7ه10 > طعتوعوعا1 05 ععمع ع 001 
.ناث .(1097-1100 .مم) لهكعتتاع] 


2019658 .لاآرآ عاع00) ..0 .5لةتإصالا لطة .1لا اء15ك]ا 
خمع ند .5.ل] .2115:0115 1211131 115115 كأاعطاعء5 :عا 01 و5عع1] 0315م 
23726 م 


0 0 .11 .2500511 11اعء10 ...8 .110تاماعاطه8/1 ..14 .امماآ 
-5114[ 01 5عتتطوعء1 5121151631 ع32851128[ 1قتتطدلط .2019 ..0 
لله 115ه؟اءا8 1نتتتاءعل 2ه 5ه أعدقصمما' اط[ .كاكدع1' لعتماعمء 0 

16211111185 5. 


...ل .قطه11 لمهة لآ .لكلا .11 .عمقطت ..2 .31ن) ..5 .ا ..ل .مناه 
لع 1111 ع مطتصمتةتتا 20561531121 712 121102عطعع انعا ع2م.آ .لتامطم 
1513م ذه ععع اع كمه آأكخخذ 20امعء5- اخلط 1 10 .هله تتم لصا 

ادك ك١‏ 


...8 نتانقط210 81 مد .21 .اقططعك اك ...7 .1133201121 81 ..خ .11تا0ك 
لنتتاءل! أمعتتناععا ع طاولا 105أنتاعمعء نجرع1' عاطوتخ .لمث .2018 
320 1010) .0318آ[ 818 زه ععمعتع1دهن) 2100201 معام[ م[ .1165م ىحاءار 

) .511181 .(523-533 .مم) 116361005[ممم 


لمة عتطوحة) ”الحرف العربي والتقنية“» .(15:01601) 18121122 15642املا 
101 اعامعن) 031410231اعام1 طلماانلطذ عمتكا .2015 .(لاع10مصطاءع]' 
531101 .115:30 .علخ )1 خشك]) عع 228112[ 1طوعم 


5 00111160160 01 1601:عآ ث .2011 ..! .11215 .لا .مقاتة1] 
016123610031[ أوتاط1 2[ .102لمعمعع] انورع1 لوعتنام0 عتطوعكث +101 
1320551115 عأاطمومث نا 5تع نمم ذه «رمطيله11 

1" .الاطمة15] 


...ا .طقة136 0ه .1 .لموتااظ ..0 .0610 ..5 .لكتلقطكا ..مآ .1ر1 
1 امه عع 6) تنه نمع 1772[و طخ 1[دعا1ع 1010م 1/101 عامطدتك مط .1ع اماه 0 
ممطى 11/011 طاتمعع 1ط عطا 01 دع صتلعءء2:0 مآ .وعختطوء 1 كنام1ام00) 
همه -79ع2010همط2 .5ع أعصمطط ط1 طعتوعوع1 112610021امططهن) زه 

.(140-150 .مم) رع م1مطمته11 


“0 


]75[ 


]76[ 


771 


]75[ 


]79[ 


]50[ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


3 0010115 ع1ط1ووعععة .2018 ..خى .12101 لطه .117 .مستطهءط1 
.11281115]165آ 001115 عاطقتث .عاطوتخ 101 


1ع 101 50103 035 لل :2150111111105 5110112115 .1996 ..ى. دآ .الب 
047+ 105 5001617 نوع 1تعطط عطا 01 [قطتتناه[ .امكمسطلوتى 
.70-54.مم .(47)1 .ععمعاعه 


101 1100اع10 10121105ة7تء مث .1994 ..(0.1) .ععلوط 
7 .ل1ء1118م5 .(42-50 .مم) 510115:94 ص[ .وسمسمط مم21 


220 تعطا :متط1مع21 ع متستدمعاد ععترمط عط1 .2006 ..2 .1اع1111 
219-3.م0 .(4003 .لمتوتاع 10 .10117 


15 13116اع0 ذخ .1996 ..0 .عتاعاومعاء01 لطة .ث4.نا الب 
هه تاعتتدعوع1 <م10ع5 10 .كدصط1مع21 عمتمموصطعذد طنتاعمط 01 
11 


عاطوحخ .اتتمخ .2005 ..[ .5وططدهه00 امه .]1 جتتامطلاط ...1 .وخطعة]' 
عع طع01121) 0113110531[ 0[ .همه 011 10016 2 أنامط 111 عمتستطرعاه 
-(1100”05) 8م00 320 000128 :1087م0صطعة1' 0110216102 1م] زه 

اا[ .(152-157 .مم .1 .1م1) 11 عسساما 


عكتاعع88 .2013 .لل تتولطعمط لطة ك.د كل002 ..24 .تصملدط 
ع1 عأاطوعث +10 طاعدمعممة 710طتوط ل0ع5ةط تعستمعاد عاطوعطم 
هك 5ط0تطتالا 10362 01 031تتتا0ل 023610031آاعغط] .100خدج11مععنلهه 

.(3)4 .2106655 األعططاعع ص منة 8/1 عع20171»0 كا 


لط 1]-[خ ...كذ .8.8 .وذخ .ذاك بطاعجكلو2ة ا ...1 .1اموكا-امط 
عاطوعذ لع635 ]700 1عامم كى .2015 ..1.321 .201صحنتناتث لطهة .ذد 
20 لع اتامططه0)-1517ء0157لا 52110 عطتكا 01 001تنا0ل «اعمتطرعاد 

-94.مم .(27)2 .5عع2ع561 011021101 1م]1 


متخ .أكتعسنث .2004 ...1 ]مططععتكا امه .لآ .لتووتع١‏ 
اععءم5 2آة صع0ط0لاع27200 علاأقنامعج +101 ع[اطوعكظ 01 0131722105 
112110031 ذه ممطع1701 عطا 01 دوع ستلعءء2]0 ص[ .0ه تمع معع]1 
.(66-73 .مم) 5ع1328138 0ع5ة6-اماتء5 عآاطوتثظ 10 دعلاع0ماممة 

.5 01001112110031) 101 0121101 0وقم 
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]52[ 


]53[ 


]54[ 


]55[ 


]56[ 


]57[ 


]55[ 


]859[ 


]90[ 


تطبيقات الذكاء الاصطناعى فى خدمة اللغة العربية ١‏ 

ا > “ذه الطبعة إهداء من المرَكْرُ 

مقدمة المحرر ‏ ” ولا يسمح بنشرها ورقياً أو تداولها تجارياً 

4 

ال ص اطناه تريخ - اخ له .8 .تأعمتهة135-لخ ..1 .قطن ..خ .]عله [91] 
عه .و اضة!8 االمعجه71 مرعء<آ1 عمذونآ منهج تاتمعة21[ ع1 عأطدتم 

١و١‏ أقسام القارئات الالية 4 .22717:1905.01965 اأمتامعام 

١ى.‏ أهم تحديات التعرف الآ تابة العربية اليدوية (خط البد ا ٠١‏ 

مط .2008 11 اك إل عل كتايق الجرسية )مد ميال رتو ير الجر بودوز 

؟ . عمليات ال ف الالى على الكتابة ١‏ : 
101 5118211 121 1 204 3151925م 1ع ةغطلزد 01 ععطم اهم صا 


5 1 , 1 0 :(34)2 .1281115]165آ 112105221 مده .ع طنتاء م13 


ل ا 810 ..!! .8325 ..2 .120135 ..دآ .عمقتط0) [93] 
حتةع م متناكا فطل ورعن دع 0011© 1115 سآ .كاءعة0121 عتطفتة عستلومةط .2006 
هر ؟.دع لاط مانا مم2« مده 101 0 جاع ودمى عط كه تعامهدان 


05 1 التعبرؤهم علوم لكتاية جم ريو عللاقةمالتصيبيفب لالتقطيع .112011210 [94] 
عع وكرنموالتم فم لها عباس والتقطبيي اهمه ع'كلاعه [10م حمها8 اع م01 
مع سوام ]التمس شط العلي تطط تقمي للع طول ء ع5 0[ .كمطتط)11ه2150 
مع وترم [التقيفم اناري ومخلان جتمليع ضوويد 1 حمة نزع10مصناءع] 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
211ظككمظة2© ١١١‏ 


فهرس الكتاب 


الموضوع الصفحة / 


الباب الأول: القراءة الآلية لكتابة اليد العربية ْ 
د.يوسف سالم العريان و د.عرفان أحمد. ‏ 


١ | أقسام القارئات الآلية‎ ١ 


2و لات 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


أهم تحديات التعرف الآلي على الكتابة العربية اليدوية (خط اليد , 
العربي) 


0 - عمليات التعرف الآلي على الكتابة. * 


”1١ عمليات المعالحة المسبقة‎ ”.١ 


5 ؟ المعالحة اللاحقة 37> 
:2 0 3 و 0 الع 005507000 3 ٠‏ [ 
١ ١‏ اعرف القائم عل امتطع ١‏ د 0 ِ 
_ اعرف اس امو القطيع ' 0 ا 0 
0 1" التعرف الذي يتخلله تقطيع ضمني . ظ 0 [ 0 [ 


مواضع نوافذ سابقة ام 


دبقارنات ليعضن أشهر انقلحة التعرف الكلضل التصرصض العربية 5 
المكتوبة بخط اليد 


١‏ , قواعد بيانات للكتابة العربية اليدوية و 


معارر رارع التدرن ال التعرف الال عن الصير من وا | مده ْ 
١‏ 8 اهم ترات الال الدرلر /اه 


مانو لانت 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل4هككك4 د ---_||سسييييىو وى ااا 


؟ ه أهم المجلات العلمية المحكمة التي تصلح لنشر المقالات في 
المجال 


الخاتمة 0 


د.أحمد حمدي أبو عبسة 


ْ 3ن المصول عل المقاطع الصوئية تية الخامة بالقرآن الكريم كم 


"0 استخراج الخصائص المتعلقة بالمقاطع الصوتية القرآية . كم 


”7 تقليل أبعاد متجه اللخصائص 


7760101 1و1 


054" التصنيف م مي 1116111100 ْ 4 
الل - خوارزميات اي 0 2))) ْ 4١‏ 
١5و“‏ مصنف ب بايز رمه ا( | ”4 


١؟,”‏ مصنئف الشيكة العصبية م متعددة ولط قات 
(ط1ك/ة) 0 0 نكا 


7 ” مصنئف لجار الأقرب ماع ع1 1-١‏ ٍْ 4 


5 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب ييا 


5 و” مصنف آلة متجه الدعم (/ (5171/1) عمتاعة/! 1ماعع7١1‏ ا 040 


4- التتجارب والتتائج . ع 0 


د.أمحد يوسف أبو جبارة ! 


تحليل الآراء العربية... 00 
اهام الرئيسية في تحليل الآواء. ٠١0940‏ 
مهام متقدمة لتحليل المشاعر ١‏ 


طرق تحليل الآراء ١4‏ 
المعالجة المسبقة للنصوص ١6‏ 


ْ الصرق المعتمدة ل 5[ ال كط 5 ١‏ “1 0 


الات الطرق الضيية على تقنيات تعلم الآلة التقليدية. عمتطعة/1 
علتلمتتوعاآ 


حت ١‏ الطرق المعتمدة ا لو العميق ل ل 001 
مصادر وأدوات - ١58‏ 


.١ ١‏ أدوات المعالجة المسيقة للخص: . ا 


ع ولاب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الاك --__|سسيييبوىو,ى ااا 


ْ 1. معاجم قطبية عربية ١91‏ 
اساضيرتا ١4‏ 


:. مدونات 00 ِْ حر 


الرلجع اس 


لايم الات بع: التعلم العميق وتطبيقاته المرتبطة باللغة العربية ْ٠‏ 
شْ دأعهدلايك 


ظ 0 000 ظ 00 
دمتسي د 5 35 3 7 

2-0 ظ 6 [ 
ْ : 7 00 لم اميق 00909909 ظ 1 00 
١‏ 3-0 0 20008 1 0 : 


1 ا ا ا سا١‏ 


0 ".؟ شبكات الذاكرة قصيرة- المدى الطويلة . ا 


هوا - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ييا 


59 .4 شبكة التشفي الآني ا 
0 ؛-أهم تطبيقات التعلم العميق في خدمة اللغة العربية - .٠ ١65‏ 
١‏ 0 تطبيقات التعلم العميق في مجال تحليل اللغة العربية الطبيعية . لا 


١‏ و0 تطبيقات التعلم العميق في مجال التعرف على الكلام العربي 
عرق 


ا اس سسسه ا 
توبة 


ب م ا 


التعلم العميق 000 ١‏ 


١55 ْ التعريف ونبذة تاريخية‎ ٠١ 
١و8‎ . أهم تطبيقات معالجة اللغات الطبيعية‎ ١ 0" 
0  .ةيعيبطلا هم وظائف يعاجة العاف‎ ١ 


" ؟-التعلم العمية ومعالجة اللغات الطبيعية ١75‏ 


ع ؤطابت 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
الاك --__|سسيييبوىو,ى ااا 


[ كيف تتعلم خحوارزميات التعلم العميق [ كفن‎ ١ 


- اا لاض م0 


ْ رض ري اليانات. 1م 
١ [‏ و اسباروحةة اللموتج [ 4 
م "١‏ تدريب التموؤج. نيل 

اختيار بنية النموذج 85 
0 6 ,ا تدريب وتقييم النموفج - ْ ١‏ ْ 
ِْ :- الائج . وما 


- الخاتقة لاما 


مرجع ا 


ل/اه ا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


-74- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
).بيس يبا 


تطبيقات الذكاء الاصطناعي 
في خدمة اللغة العربية 


يُصدر مركز الملك عبداللّه بن عبدالعزيز الدولي لخدمة اللغة العربية هذا الكتاب ضمن سلسلة 
(مباحث لغوية)؛ وذلك وفق خطة عمل مقسمة إلى مراحل؛ لموضوعات علمية رأى المركز حاجة المكتبة 
اللغوية العربية إليهاء أو إلى بدء النشاط البحثي فيهاء واجتهد 4 استكتاب نخبة من المحررين والمؤلفين 
للنهوض بعنوانات هذه السلسلة على أكمل وجه. 

ويهدف المركز من وراء ذلك إلى تنشيط العمل 2# المجالات التي تَنَبِّهِ إليها هذه السلسلة؛ سواء أكان 
العمل علميا بحثياء أم عمليا تنفيذياء ويدعو المركز الباحثين كافة من أنحاء العالم إلى المساهمة # هذه 
السلسلة. 

وتودّ الأمانة العامة أن تشيد بجهد السادة المؤلفين؛ وجهد محرر الكتاب؛ على ما تفضلوا به من رؤى 
وأفكار لخدمة العربية # هذا السياق البحثي. 

والشكر والتقدير الوافر لمعالي وزير التعليم المشرف العام على المركزء الذي يحث على كل ما من 
شأنه تثبيت الهوية اللغوية العربية؛ وتمتينهاء وفق رؤية استشرافية محققة لتوجيهات قيادتنا الحكيمة. 

والدعوة موجّهة إلى جميع المختصين والمهتمين للتواصل مع المركز؛ لبناء المشروعات العلمية؛ وتكثيف 


الجهودء والتكامل نحو تمكين لغتنا العربية» وتحقيق وجودها السامى 4 مجالات الحياة. 


الأمين العام للمركز 


د. عبدالله بن صالح الوشمي 


9 |||! |!!! 


0 مركز الملك عبدالته بن عبدالعزيز الدولي 
0 3و6 ةا عتطو لظ ع1 
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